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“我 会 之 不 狐 弛 地 将 此 书 推荐 给 统计 领域 的 研究 人 员 和 专业 人 士 .” 
一 一 《统计 软件 期 刊 》 
“两 位 雄心 过 物 的 作者 写 就 了 一 本 令 统 计 界 人 士 交口 称 鞠 的 杰作 。” 
一 一 《美国 统计 学 会 期 刊 》 
“这 是 我 读 过 的 计算 统计 方面 最 好 的 一 本 书 ， 几 乎 涵盖 了 统计 计算 的 所 有 论题 。” 
-一 亚马逊 书评 


本 书 涵盖 了 计算 统计 领域 的 几乎 所 有 核心 内 容 ， 既 包含 一 些 经 典 的 统计 计算 方法 ， 如 求解 非 线 性 
方程 组 的 牛顿 方法 、 传 统 的 随机 模拟 方法 ， 又 系统 地 介绍 了 近 些 年 来 发 展 起 来 的 计算 统计 中 的 某 些 新 
方法 ， 如 模拟 退火 算法 、 基 因 算 法 、EM 算 法 、MCMC 方 法 、Bootstrap 方 法 等 。 另 外 ， 本 书 时 效 性 
强 ， 实 例 丰富 ， 书 后 还 提供 了 大 量 不 同 难度 的 习题 以 供 读者 练习 。 

阅读 本 书 ， 你 不 必 具 有 很 高 的 数学 水 平 ， 只 需 了 解 Taylor 级 数 和 线性 代数 方面 的 知识 ， 以 及 基本 
的 统计 和 概率 论 知识 即 可 。 相 比 于 在 数学 训练 上 的 深度 ， 本 书 更 注重 将 数学 知识 广泛 运用 于 实际 应 用 
中 。 

对 于 那些 有 志 在 统计 等 相关 领域 奋斗 的 研究 者 和 工作 者 ， 本 书 是 一 本 必 读 的 经 典 之 作 。 
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内 容 提 要 


随 着 计算 机 的 快速 发 展 ,数理 统计 中 许多 涉及 大 计算 量 的 有 效 方法 也 得 到 了 广泛 应 用 与 


迅猛 发 展 , 可 以 说 , 计算 统计 已 是 统计 中 一 个 很 重要 的 研究 方向 . 


本 书 既 包含 一 些 经 典 的 统计 计算 方法 ,如 求解 非 线性 方程 组 的 牛顿 方法 、 传 统 的 随机 模拟 
方法 等 ， 又 全 面 地 介绍 了 近 些 年 来 发 展 起 来 的 某 些 新 方法 ,如 模拟 退火 算法 、 基 因 算 法 、EM 
算法 、MCMC 方法 、Bootstrap 方法 等 ， 并 通过 某 些 实例 , 对 这 些 方法 的 应 用 进行 了 较 详细 的 说 


明 . 本 书 最 后 还 提供 了 各 种 难度 的 习题 . 


本 书 可 作为 数学 、 统 计 学 、 科 学 计算 等 专业 的 本 科 生 教材 ,也 可 供 统计 学 方向 的 研究 生 、 


工程 技术 人 员 和 应 用 工作 者 参考 使 用 . 
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译 者 F 


统计 计算 不 仅 是 统计 学 专业 本 科 生 的 一 门 重要 基础 课程 , 而 且 越 来 越 多 的 理工 
科 、 商学、 经济 学 、 医 学 专业 本 科 生 及 研究 生 也 都 开始 选修 此 课程 . 虽然 国内 关于 
统计 计算 的 教材 已 有 若干 本 , 但 这 些 教材 多 是 介绍 传统 的 、 经 典 的 统计 计算 方法 . 
近 些 年 , 随 着 计算 机 技术 的 快速 发 展 和 统计 方法 的 不 断 丰 富 , 统计 计算 方法 发 展 很 
快 , 并 大 受 重视 , 产生 了 许多 得 到 广泛 应 用 的 统计 计算 方法 , 如 EM 算法 、 Bootstrap 
方法 、MCMC 方法 、 模 拟 退 火 方法 等 . 然而 , 到 目前 为 止 , 国内 还 没有 一 本 系统 地 
介绍 这 些 新 方法 的 统计 计算 教材 或 专著 , 而 这 本 由 Wiley 出 版 社 出 版 的 《计算 统 
计 》 恰好 填补 了 这 一 空白 . 

本 书 既 包含 了 一 些 经 典 的 统计 计算 方法 , 如 非 线 性 方程 组 的 求解 方法 、 传 统 的 
Monte-Carlo 方法 等 , 也 详细 地 介绍 了 近 些 年 发 展 起 来 的 许多 常用 统计 计算 方法 , 如 
模拟 退火 算法 、 遗 传 算法 、EM BE, MCMC FE, Bootstrap 方法 及 某 些 光滑 技 

本 书 在 讲述 方法 的 同时 , 还 注重 这 些 方法 在 金融 、 优化 等 方面 的 应 用 , 并 给 出 
了 非常 丰富 的 参考 文献 . 另外 , 虽然 全 书 内 容 较 丰富 , 但 因 其 所 需 的 概率 统计 知识 
相对 较 少 , 所 以 很 适合 低 年 级 本 科 生 自学 或 课堂 学 习 , 而 且 其 中 某 些 高 等 内 容 也 可 
供 统计 专业 的 本 科 生 、 研究 生 参 考 . 

我 们 很 高 兴 能 有 机 会 将 该 书 推荐 给 国内 的 读者 , 也 非常 感谢 人 民 邮 电 出 版 社 图 
灵 公 司 的 编辑 在 此 书 翻译 过 程 中 给 予 我 们 的 大 力 支持 和 帮助. 

本 书 的 翻译 工作 由 4 名 老师 合作 完成 , 其 中 第 1~3 章 由 王 光 军 翻译 , 第 4~6 
章 由 刘 民 千 翻 译 , 第 7~9 章 由 邹 长 亮 翻 译 , 第 10~12 章 由 杨 建 峰 翻译 , 全 书 由 王 兆 
军 、 刘 民 千 统 校 . 

由 于 译 者 英文 、 中 文 水 平 有 限 , 专业 知识 也 有 待 提高 , 翻译 之 中 难免 会 有 不 妥 
之 处 , 欢迎 广大 读者 批评 指正 . 


译 者 
2008 年 8 月 于 南开 园 
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要 广泛 深入 地 学 习 当今 统计 计算 和 计算 统计 学 , 所 需 了 解 的 大 多 数 内 容 本 书 均 
有 涉及 . 我 们 力求 让 读者 理解 现 有 方法 的 机 理 , 使 读者 能 够 有 效 地 使 用 这 些 现代 统 
计 方法 . 由 于 许多 新 方法 都 是 从 现 有 的 技术 构建 出 来 的 , 故我 们 的 最 终 目 的 是 向 科 
学 工作 者 提供 必要 的 工具 , 帮助 他 们 为 此 领域 贡献 新 的 思想 . 

想 要 达到 这 些 目的 , 就 必须 精通 统计 计算 、 计算 统计 、 计 算 机 科学 和 数值 分 析 
等 各 方面 内 容 . 我 们 选取 了 那些 我 们 认为 是 本 领域 中 心 的 内 容 , 也 会 是 读者 感 兴趣 
和 认为 有 用 的 内 容 . 另外 , 我 们 从 注重 实效 的 角度 优先 考虑 了 使 学 生 和 研究 者 受益 
最 多 、 收 效 最 快 的 内 容 . 

考虑 到 出 现 了 一 些 高 质量 的 软件 , 我 们 省 略 了 本 领域 过 往 以 来 的 某 些 重要 的 研 
究 内 容 . 例如 , 伪 随 机 数 的 产生 是 一 个 经 典 的 课题 , 但 我 们 更 倾向 于 让 学 生 使 用 可 
靠 的 软件 来 解决 问题 . 还 有 一 些 内 容 如 数值 线性 代数 , 属于 讲 与 不 讲 两 可 . 这 些 内 
容 对 于 很 多 应 用 来 说 是 很 关键 的 , 但 是 通常 都 有 不 错 的 计算 机 软件 可 用 . 按 我 们 的 
判断 , 人 们 不 会 经 常 抛 开 程序 而 去 探究 数值 线性 代数 的 细节 , 因而 (刚好 ) 不 足以 让 
我 们 把 这 些 内 容 写 到 书 里 . 这 些 经 典 内 容 我 们 只 写 了 优化 和 数值 积分 , 这 么 做 的 原 
因 是 : G) 二 者 是 频率 学 派 和 Bayes 推断 的 基石; (it) 现 有 软件 程序 往往 不 能 应 付 此 
方面 的 难题 ; Gii) 这 些 方法 本 身 还 是 其 他 统计 计算 方法 的 基础 

我 们 这 里 使 用 “现代 ”这 个 字眼 , 可 能 面临 如 下 矛盾 , HIGIE BRT EEE 
所 有 的 最 新 、 最 好 的 技术 . 事实 上 , 我 们 也 从 未 打算 这 么 做 . 有 些 领域 实在 变化 得 太 
快 , 比如 启发 式 搜索 和 MCMC. 我 们 只 是 努力 提供 这 些 领域 主要 内 容 的 近期 概况 ， 
而 把 其 多 样 性 和 专业 性 让 读者 自己 去 探索 回味 . 还 有 的 内 容 (如 主 曲线 和 tabu 搜 
索 ) 我 们 写 在 书 中 , 仅仅 是 因为 这 些 内 容 很 有 意思 , 可 以 从 全 新 的 角度 去 看 熟悉 的 
问题. 也 许 研究 者 将 来 能 从 这 些 内 容 出 发 设计 出 有 创意 且 有 效 的 新 算法 来 . 

本 书 的 目标 读者 为 统计 和 相关 专业 的 研究 生 、 应 用 统计 工作 者 和 其 他 领域 做 
定量 分 析 的 科学 工作 者 ， 我 们 希望 这 些 读者 在 应 用 标准 方法 和 研发 新 方法 的 时 候 ， 
能 够 用 到 本 书 . 

本 书 不 要 求 读者 具有 高 深 的 数学 水 平 , 但 要 了 解 Taylor 级 数 和 线性 代数 方面 
的 知识 . 读者 数学 训练 的 广度 比 深度 更 有 用 . 第 1 章 回顾 了 基础 知识 , 较 高 级 的 读 
者 可 以 在 与 具体 内 容 相关 的 很 多 其 他 书 中 找到 更 多 的 数学 细节 , 我 们 在 书 中 列举 出 
了 这 些 参考 文献 . 其 他 读者 如 果 对 分 析 的 细节 不 太 关注 , 则 看 懂 本 书 的 算法 和 例子 
讲解 就 够 了 
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本 书 要 求 的 统计 知识 仅 限于 一 年 级 研究 生 所 学 的 统计 和 概率 论 内 容 , 其 中 最 重 
要 的 基础 知识 是 极 大 似 然 方法 、Bayes 方法 、 基 本 渐 近 理论 、 马 氏 链 和 线性 模型 . 大 
部 分 这 些 内 容 都 会 在 第 1 章 提 到 . 

至 于 计算 机 编程 , 我 们 发 现 好 学 生 可 以 按 需 自学 . 当然 , 了解 一 门 合适 的 语言 
有 助 于 快速 地 把 本 书 中 的 概念 加 以 实现 . 我 们 在 书 中 按 弃 了 那些 针对 有 具体 语言 的 
例子 、 算 法 和 编码 . 对 于 那些 在 学 习 本 书 的 同时 还 想 学 习 语 言 的 人 , 建议 他 们 选择 
一 个 高 水 平 的 交互 式 软件 包 , 即 可 以 灵活 设计 图 形 化 显示 并 包含 基本 的 统计 和 概率 
函数 的 软件 包 . 目前 在 本 书写 作 阶 段 , 我 们 推荐 使 用 S-Plus,R 和 MATLAB®, 这 些 
都 是 研究 人 员 在 开发 新 的 统计 计算 技术 时 经 常用 到 的 软件 , 也 适用 于 实现 我 们 书 中 
描述 的 绝 大 部 分 方法 , 除了 个 别 特大 型 复杂 问题 以 外 . 当然 , 你 也 可 以 用 一 些 低级 
语言 如 C++, 在 研究 人 员 把 方法 琢磨 好 后 , 通常 可 以 用 低级 语言 把 它们 作成 一 个 
专业 版 的 软件 . 

即使 是 编程 的 老手 , 对 于 数学 运算 是 如 何在 计算 机 的 二 进 制 世界 里 实现 的 细 
节 , 也 可 能 不 甚 了 解 . 各 种 稀奇 古怪 的 问题 其 实 并 不 少见 , 比如 满 秩 和 矩阵 似乎 不 可 
逆 , 积分 和 似 然 是 退化 的 , 数值 近似 比 实际 情况 还 精确 等 等 . 我 们 一 方面 不 能 忽视 
计算 机 运算 和 稳定 的 数值 计算 的 重要 性 , 另 一 方面 更 要 重视 算法 原理 的 大 局 观 , 而 
不 去 拘泥 某 些 数值 计算 的 细 枝 末节 . 

本 书 共 分 为 3 个 主要 部 分 : 优化 (第 2 章 到 第 4 章 ), 积分 (第 5 章 到 第 8 章 )， 
光滑 技术 (第 10 章 到 第 12 章 ). 第 9 章 穿插 介绍 了 另 一 个 重要 内 容 Bootstrap 方 
法 . 每 章 的 内 容 都 是 独立 的 , 老师 可 以 根据 课程 需要 自由 选取 章节 . 如 果 是 一 学 期 
的 课程 , 通常 我 们 选取 第 2 章 , 第 5 章 到 第 7 章 , 第 9 章 到 第 11 章 . 如 果 想 讲 得 更 
为 从 容 或 深入 , 还 可 以 进一步 缩小 范围 . 对 于 一 学 年 的 课程 来 说 , 本 书 的 内 容 也 足 
够 丰富 , 何况 老师 可 能 还 想 讲 些 补充 内 容 . 

每 章 后 面 都 有 大 量 的 课 后 作业 . 有 些 题 目 直 截 了 当 , 但 有 些 题目 则 需要 学 生 对 
学 过 的 模型 或 方法 有 深入 的 了 解 , 仔细 (甚至 机 灵 ) 地 编写 出 适当 的 程序 , 并 且 充分 
注重 对 于 结果 的 分 析 . 

正文 和 习题 中 涉及 的 数据 集 可 以 从 本 书 网 站 获得 : www,stat.colostate,edu/ 
computationalstatistics. 网 站 上 还 有 本 书 的 勘误 表 . 作者 对 于 书 中 的 错误 负 全 
部 责任 . 
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O 这 些 软 件 包 的 主页 分 别 为 : www .insightful.com,www.r-project.org 和 www .mathworks.com, 其 
中 R 是 一 种 免费 的 能 运行 S-Plus 部 分 功能 的 软件 , 而 其 他 的 均 为 商业 软件 - 
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本 章 将 回顾 一 些 有 关 数 学 、 概 率 和 统计 中 的 记号 和 背景 资料 . 读者 可 以 跳 过 本 
章 直接 阅读 第 2 章 . 


1.1 ” 某 些 数学 记号 


为 与 一 个 常 变量 > 或 常数 M 相 区 别 , 我 们 用 黑体 表示 向 量 = = (z1,… , 2p) 
或 矩阵 M. 在 点 = 取 值 的 向 量 函数 也 是 黑体 , 即 f(z) = (及 (2),… ,f(z))， 以 
MT RIIE M 的 转 置 . 

除非 特别 指出 , 所 有 向 量 均 为 列 向 量 . 因此 , 一 个 nx p 阶 和 矩阵 可 以 写成 M = 
(w1,… ,anj7. 以 工 表示 单位 矩阵 , 1 和 0 分 别 表示 1 和 0 的 向 量 . 

如 果 对 所 有 非 零 向 量 z, zTMz > 0, 则 称 对 称 方 阵 M 正定 . 正定 的 等 价 条 件 
是 其 所 有 的 特征 根 为 正 . 如 果 对 所 有 非 零 向 量 =, "Ma > 0, 则 称 M 非 负 定 或 半 
正定 . 

记 函 数 f 在 点 z 的 导数 为 f'(a). 当 z = (z1,… ,zp) 时 , 函数 f E z 点 的 梯 
RA fw) = ($2, GD). 函数 fF E = 点 的 Hessian EA f(x), 其 第 
(ij) 元 素 为 ELS $A Hessian 阵 在 统计 推断 中 具有 重要 的 应 用 . 

以 J(z) 表示 一 对 一 映射 y = f(x) 在 点 x 处 的 Jacobian 42M, 其 第 (i,j) 元 
KA LD, 

一 个 泛 函 就 是 一 个 函数 空间 中 的 实 值 函数 . 例如 , 如 果 T(f) = Í * sled, 则 
ZRT 为 可 积 函数 到 一 维 实数 的 映射 á 

示 性 函数 1(4) 等 于 1 , 如 果 4 成 立 , 否则 就 等 于 0. 一 维 实 空间 记 为 R, p 维 
实 空间 记 为 RP. 


1.2 Taylor 定理 和 数学 极限 理论 


为 了 描述 函数 收敛 的 相对 阶 数 , 我 们 首先 定义 记号 O 与 o. 设 f,g 为 两 个 定 
义 在 同一 区 间 (区 间 可 能 无 限 ) 上 的 函数 , zo 为 此 区 间 内 或 边界 上 一 点 (B -oo 或 
œ). 我 们 要 求 函数 g(z) #0, 其 中 在 z 的 一 个 邻 域内 z A zo. 如 果 存 在 一 个 常数 
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M 满足 : 当 z 一 zo 时 ，|f(z)| < Mlo(z)| , WK 


f(z) = O(9(z)). (1.1) 
例如 , ži n — oo WY, Bat = O(n). 如果 lim f(z)/9(z) = 0, WEK 
f(z) = o(g(2)). (1.2) 


例如 , 如 果 f 在 zo 点 可 微 , 则 当 h 一 0 时, f(£o +h) — f(ao) = hf'(z0) + o(h). 如 
取 f(n) = zn, 则 关于 序列 {zn} 的 收敛 性 , 同样 有 上 述 记 号 . 

Taylor 定理 给 出 了 一 个 函数 f 的 多 项 式 近 似 . 设 f EKR (a,b) 上 具有 有 限 
的 (n+ 1) 阶 导数 , 在 区 间 [a,b] 上 有 连续 的 n 阶 导数 . 则 对 于 任意 一 个 不 同 于 z 的 
zo € [a, ,函数 f 在 点 zo 的 Taylor 级 数 展开 为 


Fa) = DIY (oE — zo) + Ras a3) 


i=1 


其 中 fO(ao) 为 函数 f 在 点 zo 处 的 i 阶 导数 , 且 


Ra = Gah Oe- a0)", (14) 
JEH é ZEN r 与 zo 构成 的 区 间 内 . 注意 到 当 lz 一 zo| 一 0 时 , Ra = Olle —xo|"*"). 
多 元 的 Taylor 定理 与 之 类 似 . 设 f 为 一 关于 z 的 p 元 实 值 函数 , 它 在 包含 = 


和 zo 关 的 一 个 开 的 凸 集 中 具有 n+ 1 阶 连 续 偏 导 数 . 则 


Hla) = f(a) + YD iaa,2 = 20) + Rar (1.5) 
其 中 
p P 
Dgan- YD (ai a fle=2) Ty}, (2.6) 
1 二 1 j=l k=1 
1 a 
Rn = wa CG; E, £ — £0), (1.7) 


其 中 & 在 由 点 z 和 zo 连 成 的 直线 段 上 . 当 |zx 一 zo 一 0 时 , Ra = 0(|z — ao|"**). 
Euler-Maclaurin 公式 在 渐 近 分 析 中 很 有 用 . 如 果 f 在 [0,1] 上 具有 2n 阶 连 续 
导数 , 则 


[ra= DEFION Ji 


i=0 


HHo<é <1, O Æ f A j GPR, bj = B;(0) 由 下 列 迭 代 关 系 确定 


(fD (A) — fD 0)) _ bzn f(E) 
(2i)! ~~ O 


(1.8) 
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po ) Be) = ema nem (1.9) 
j=0 J 
其 初 值 Bo(z) = 1. 此 结论 可 由 分 部 积分 证 得 ([328]). 
最 后 , 我 们 注意 到 有 时 会 利用 有 限 差分 来 数值 近似 一 个 函数 的 导数 . 例如 , 函 
数 f 在 点 z 处 梯度 的 第 i 个 分 量 为 
df(z) _ f(z teiei)— f(z — iei) 
dzi 2ei y 
其 中 6; 是 一 任意 小 数 , e; 是 第 i 个 梯度 方向 的 单位 向 量 . 一 般 地 , 人 们 可 从 ei = 0.01 
或 0.001 开始 , 采用 逐步 减少 的 6; 序列 来 近似 所 求 导数 . 且 这 种 近似 方法 一 般 均 可 
逐步 得 到 改进 , 直到 当 ei 非常 小 时 导致 计算 退化 且 计 算 完全 由 计算 机 的 四 舍 五 入 
所 控制 , 关于 此 方法 的 介绍 和 可 以 得 到 较 高 精度 的 Richadson 外 推 法 请 见 [328]. 有 
限 差分 法 仍 可 用 来 近似 函数 f 在 = 处 的 二 阶 导数 , 即 
df(z) 1 
dzidzj deie; 
f(x — cieit+€ei)+ f(z — ciei— €)€;)), (1.11) 


它 仍 可 用 类 似 的 e 序列 来 改进 近似 精度 . 


1.3” 某 些 统计 记号 和 概率 分 布 


我 们 用 大 写字 母 表 示 随 机 变量 , 如 Y 或 X; 用 小 写字 母 表 示 随机 变量 的 取 值 ， 
Wy Ma. Wf MF RA X 的 概率 密度 函数 和 累积 分 布 函数 ， 我 们 以 记号 
X n f(z) 表示 XX 服从 密度 为 f(z) 的 分 布 . 一 般 地 , 以 一 条 坚 线 , 如 f(zla, 8) 表示 
密度 函数 f(c) 依赖 于 一 个 或 多 个 参数 . 由 于 本 书 内 容 较 多 , 故 应 注意 到 f(zla) 也 
表示 此 密度 函数 在 z 处 的 取 值 . 当 所 用 记号 的 含义 清楚 时 , 我 们 则 不 加 以 区 别 , 如 
flo) 就 表示 此 函数 . 当 有 多 个 随机 变量 的 密度 需要 加 以 区 别 时 , 可 加 下 标 以 示 区 
别 , 即 分 别 用 fx 和 fy 表示 X ALY 的 密度 函数 . 对 于 离散 随机 变量 和 有 关 Bayes 
的 内 容 , 我 们 使 用 同样 的 记号 . 

给 定 Y =y 时 XX 的 条 件 密度 记 为 f(zly) 或 fx (aly), 此 时 也 称 XY 具有 密 
BE f(@lY). 为 了 记号 的 简单 , 我 们 允许 密度 函数 由 其 变量 所 决定 , 于 是 , 我 们 可 以 
用 同一 个 记号 , 如 7 表示 不 同 的 函数 , 如 下 面 的 方程 : f(z,y|p) = Faly aS ue. 
最 后 , f(X) 和 F(X) 均 是 随机 变量 , 它 表 示 密 度 函 数 和 累积 分 布 函数 在 随机 自 变 
量 X 处 的 取 值 . 

以 E{X} 表示 随机 变量 的 期 望 . 除非 特别 指出 , 求 期 望 所 用 的 分 布 均 指 X 的 分 
布 . 我 们 以 PLA] 表示 事件 4 的 概率 , H PIA = Ef{1lr4}}- 用 E{X|y} 表示 X|¥ =y 


(1.10) 


(f(w + ciei + €je;) — f(a + éiei — €e;) 
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的 期 望 . 当 Y 未 知 时 , E{X|IY} 是 依赖 于 Y 的 随机 变量 . 关于 X 和 Y 的 其 他 分 布 
特征 有 var{X},cov{X,Y}, cor{X,Y} 和 ev{X} = var{X}/2/E{X}, 它们 分 别 表示 
X 的 方差 、X MY 的 协 方差 和 X 的 变异 系数 . 

Jensen 不 等 式 是 关于 期 望 的 一 个 有 用 结果 . 设 g 在 某 可 能 无 限 的 开 区 间 I 内 
是 凸 函数 , 则 对 于 所 有 的 cy eT 和 0< 和 <1, 有 

gAs + (1—A)y) < Ag(z) + (1 — A)g(y)- (1.12) 

Jensen 不 等 式 指出 , 如 果 随 机 变量 X 满足 PLX € 1)=1, 则 E{g(X)} > o(E{X}). 

表 1.1, 表 1.2 和 表 1.3 给 出 了 本 书 中 用 到 的 多 个 离散 和 连续 随机 变量 的 相关 
信息 . 我 们 有 如 下 常用 的 组 合 常数 : 


表 1.1 某 些 常用 离散 随机 变量 概率 分 布 的 记号 和 描述 


名 称 记号 和 参数 空间 密度 和 样本 空间 均值 与 方差 
Bernoulli X ~ Bip) F(z) =p" (1 — p)'-* E{X} =p 
o<p<1 z=0 或 1 var{X} = p(1 - p) 
二 项 X ~ B(n,p) f(z) = ( is ) p?(L—p)"-* E{X} = np 
0<p<in=1,2,--- 2=0,1,-:-,n var{X} = np(1 — p) 
Bg 项 2X~MBmD) fle) = ( a ) Thi O BOO =np 
a 
ms P=(T1 Tk) Ti =0,1,--+,n varXi=npi(l — pi) 
Chip =1n=1,2,--° Chinsn cov{ Xi, Xj} = —npipy 
负 二 项 X ~ NB(r,p) f(z) = ( 3 ot 7 5 ) p-p)?  B{X}=r(1- p)/p 
O<p<1,r=1,2,--- x=0,1,-:- var{X} = r(1 —p)/p? 
Poisson X ~ P(A) f(z) = AF exp{-A} E{X} = 入 
入 >0 z=0,1,2,--- varX = 


nl=n(n — 1)(n— 2)--- (3)(2)(1), (注意 0! = 1), (1.13) 


1 
( t j-e (1.14) 
(a : Ne TETI ki! He n= Sk, (1.15) 
af f=) 如 果 r = 1 2,…: 
ro-{ Soot exp{—t}de, 如果 r>0. (1.16) 


注意 到 T(1/2) = Va, 且 对 于 任意 的 正 整数 n, T(n + 4) = ROR One De 
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表 1.2” 某 些 常用 连续 随机 变量 概率 分 布 的 记号 和 描述 


名 称 记号 和 参数 空间 密度 和 样本 空间 均值 与 方差 
Beta X ~ Beta(a, B) f(z) = zl 一 z)5-1 EX] = 395 
a>0,8>0 O<ae<1 var{X} = Gaara 
Cauchy X ~ Cauchy(a, 8) f(x) = 工 E{X} 不 存在 
np|1+ (于 2) 
aERGB>0 TER var{X} 不 存在 
x? XXX f(z) = Gamma(v/2, 1/2) E{X}=v 
v>0 z>0 var{X} = 2v 
a 
Dirichlet X ~ Dirichlet(a) f(w) = He Mas E{X} = a/ao 
fi ras 
(ony 0K) B= (ry BE) OS BST vard X} = We 
ai > 0,a0 = Dk, ai Tt zi=1 cov{X1, Xj} = atest 
指数 X ~ Exp(\) f(x) = Aexp{—Az} E{X] = 1/X 
入 >0 z>0 var{X} = 1/2? 
Gamma X ~ Gamma(r, A) FE) = FF exp{—rz} E{X} =7/X 
A>0,r>0 z>0 var{X} =r/d? 
表 1.3 ”其 他 一 些 常用 连续 随机 变量 概率 分 布 的 记号 和 描述 
名 称 ”记号 和 参数 空间 密度 和 样本 空间 均值 与 方差 
XN f(a) = haem {=} (4) } B(X) = expla + 04/2} 
HER a>0 TER var{X} = exp{2p: + 207} 
— exp{24 + 02} 
多 元 TI _ 
EA XMS) fle) = Sele eee) B{X} =p 
= (m, soe) € RE æ= (zl ,Tk) E€ RE var{X}= 5 
EE 
ES =X ~N(u,0%) fle) = zx ow] -} (二) } E{X} =p 
HER >0 ZER var{X} = o? 
学 生 -t Xnty F(a) = KUD 1 + a3 y) 0/2 E{X} = 0(v > 1) 
v>0 TER var{X} = vfs(v > 2) 
均匀 X ~ U(a,b) f(z)= 5 E{X} = (a+b)/2 
abe Ra<b z € [a,b] var{X} = (b — a)? /12 
Weibull X~Weibull(a, b) f(z) =abe?—! exp{-az?} E(X j= CH i 
a>0,b>0 z>0 var {X} = 20H20 +) 


统计 中 常用 的 多 数 分 布 都 属于 指数 分 布 族 . 一 个 具有 k 个 参数 的 指数 分 布 族 
函数 可 表示 成 


k 
f(zIy) = e1(x)ea(7) exp 位 maem) ， (1.17) 


i=1 


其 中 cu ca 为 非 负 函数 ; 向 量 7 为 常用 参数 , 如 Poisson 分 布 中 的 及 二 项 分 布 中 
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的 p; 实 值 的 9;(Y) 为 自然 或 典 则 参数 , CHE 7 的 变换 ; y;(z) 是 典 则 参数 的 充分 
统计 量 . 容易 证 明 
E{y(X)} = «(0), (1.18) 
var{y(X)} = «"(0), (1.19) 
中 (0) = — log cs (0), 这 里 的 ca(9) 是 由 cz(7) 通过 典 则 参数 g = (01, ,9k) 与 
y 的 变换 得 到 的 , 且 y(X) = (yn (XX),… ,yr(X)). 如 用 7 表示 , WA 


E {pao di) By} - z =F veel), (1.20) 


i=1 


var { go, oo} = -fp oro -E 位 So W) woo}. (1.21) 


i=1 
例 1.1 (Poisson) WẸ c (x) = 1/2!,co(A) = exp{—A}, y(x) = z, A(A) = log A, 
WW Poisson 分 布 属于 指数 族 分 布 . 为 得 到 由 9 表示 的 矩 , 我 们 有 4 (0) = exp{0}, 故 
E{X} = (0) = exp{0} = A, var{X} = K” (0) = exp{0} = A. 注意 到 49 = 4, 故 由 
(1.20) 和 (1.21) 可 得 到 相同 的 结论 . 例如 , 由 (1.20) T E {X} = 1. 口 
了 解 随机 变量 变换 后 的 分 布 如 何 改变 很 重要 . 设 X = (Xi, Xp) 是 一 具有 
连续 密度 函数 f 的 p 维 随机 变量 , 又 设 


U =9(X) = (0 (X), ,gr(X)) = (U1, -+ - , Up), (1.22) 


其 中 g 是 一 由 f 的 支撑 区 域 到 使 f(z) > 0 的 所 有 w = 9(z) 的 空间 的 一 一 映射 . 
Ah X 得 到 U 的 概率 分 布 , 我 们 要 应 用 Jacobian ERE. 变换 后 随机 变量 的 密度 
为 

f) = f(g (u))lJ (u)], (1.23) 
其 中 |J(w)| 是 (i,j) 元 素 为 $ hI g7 的 Jacobian 矩阵 在 u 点 取 值 的 行列 式 的 
绝对 值 (假设 上 述 导 数 在 U HEARD ee) 


1.4 似 然 推断 


假设 X Xn 为 来 自 密度 函数 为 f(z|9) 的 独立 同 分 布 ( 简 记 为 ii.d.) 样 
A, 其 中 9 = (91,… Op) 为 p 维 未 知 参数 , 则 联合 似 然 函数 为 


L(0) = [J f(zil0). (1.24) 
i=1 
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当 数 据 不 是 独立 同 分 布 时 , 联合 似 然 函数 仍 可 表 成 联合 密度 f(z1,… ,zzn|l6), 它 仍 
是 9 的 函数 . 

观测 到 的 数据 zi,… en 可 能 是 参数 9 在 多 个 不 同 值 下 的 实现 ， 于 是 它们 
最 有 可 能 组 成 参数 0 的 极 大 似 然 估 计 . 换 句 话说 , WR 安 是 极 大 化 LO) 的 关于 
Zl… ,zn 的 函数 , 则 8 = ÒX Xn) 是 9 的 极 大 似 然 估 计 (MLE). 由 于 
MLE 具有 变换 不 变性 , 故 6 的 一 个 变换 的 MLE 就 等 于 6 的 变换 . 

人 们 经 常 应 用 的 是 对 数 似 然 函 数 


1(8) = log L(@). (1.25) 


由 于 对 数 函数 是 凸 函数 , 故 对 数 似 然 函 数 与 原来 的 似 然 函数 有 相同 的 最 大 值 . 男 外 ， 
由 于 在 对 数 似 然 函数 中 加 上 任何 仅 依赖 于 x1,… ,zn 而 与 6 无 关 的 常数 都 不 影响 
最 值 的 位 置 或 针对 不 同 8 的 对 数 似 然 函数 的 差 , 故 它 可 以 从 对 数 似 然 函数 中 去 掉 ， 
注意 到 求 L(9) 的 极 大 值 等 价 于 解 方程 组 


U(@) =0, (1.26) 
其 中 (9) = (SO... OD) BAR ae, 得 分 函数 满足 
E{l'(@)} = 0, (1.27) 


其 中 期 望 是 关于 Xi, Xn 的 分 布 求 取 的 . 有 时 由 (1.26) 的 解析 解 可 求 得 MLE. 
当 MLE 并 不 能 由 (1.26) 解析 求 得 时 ,本 书 将 给 出 其 他 多 种 求 取 MLE 的 方法 , 但 
我 们 注意 到 也 存在 MLE 不 是 得 分 方程 的 解 或 MLE 不 存在 的 情况 , 例子 见 [109]. 
由 于 MLE 依赖 于 Xi Xn 的 观测 值 , 故 它 有 抽样 分 布 . MLE 可 能 是 8 的 
有 偏 或 无 偏 估计 , 但 当 n 一 oo 且 在 很 一 般 的 条 件 下 , 它 是 渐 近 无 偏 的 . MLE 的 抽 
样 方差 依赖 于 对 数 似 然 的 平均 曲率 . 当 对 数 似 然 非常 尖 时 , 其 最 值 的 位 置 可 以 较 精 
确 地 确定 . 

为 确定 此 精度 , © U"(0) 表示 (i,j) 元 素 为 SO 的 pxp MER. 则 定义 Fisher 
信息 矩阵 为 


1(0) = E{L (0) (0)"} = -E{1"(0)}, (1.28) 


上 式 中 的 期 望 关于 Xi Xn 的 分 布 求 取 . 注意 , (1.28) 中 的 最 后 一 个 等 式 需要 
的 条 件 较 弱 , 且 指 数 分 布 族 满足 此 条 件 . 有 时 为 与 观测 到 的 Fisher 488E (0) 加 
以 区 别 , 也 称 1(0) 为 期 望 的 Fisher 信息 量 . 观测 的 Fisher 信息 量 之 所 以 有 用 , 其 原 
有 两 个 : 第 一 , 当 (1.28) 式 的 期 望 难于 计算 时 , 此 值 仍 可 以 计算 ; 第 二 , 它 是 IO) 
的 一 个 很 好 的 近似 , 且 当 n 增加 时 , 这 种 近似 越 来 越 好 . 

在 正则 条 件 下 , MLE6 的 渐 近 协 方差 阵 为 (0°), 其 中 6" 为 9 的 真 值 . 事实 
上 , 4n— oo 时 , Ô 的 极限 分 布 是 Np(9*, 了 (09")-!). 由 于 参数 真 值 未 知 , 故 为 估计 
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MLE 的 协 方差 阵 , 我 们 必须 估计 (0°), 并 且 一 个 显然 的 估计 即 为 (8). 另外 ， 
使 用 估计 Â 也 是 合理 的 , 因此 , 每 一 个 参数 的 MLE 的 标准 误差 都 可 以 用 估 
计 I(6*)-! 的 相应 对 角 元 的 平方 根来 估计 . 关于 极 大 似 然 理论 的 较 详细 介绍 和 关于 
I(9*)-! 的 各 种 估计 的 优点 , 请 参见 [109, 158, 325, 401]. 
偏 似 然 (profile likelihood) 为 我 们 提供 了 一 种 有 效 绘制 高 维 似 然 曲 面 的 方法 , 并 
提供 了 一 种 有 效 的、 用 来 推断 部 分 参数 而 把 其 余 参 数 看 作 讨 大 参数 的 方法 ,同时 ， 
它 也 可 用 来 处 理 各 种 优化 问题 . 偏 似 然 是 由 全 似 然 求 取 部 分 参数 约束 下 的 极 大 值 而 
得 到 的 , 即 , 如 果 6 = (u, 四, 则 关于 o 的 偏 似 然 为 
L(GIP(D)) = max L(y $). (1.29) 
这 样 , 对 于 每 一 个 由 选取 u 1E Liu, p) 极 大 化 , 而 u 的 最 优 值 正 是 由 的 函数 . 于 
是 , 偏 似 然 是 o 的 函数 , 而 此 函数 将 由 映射 到 在 p 及 其 相对 应 的 最 优 六 处 的 全 似 


然 的 值 . 注意 到 极 大 化 偏 似 然 L(gIj(9)) 的 4 就 是 由 极 大 化 全 似 然 L p) 得 到 
的 o 的 MLE. 有 关 偏 似 然 的 方法 请 见 [21]. 


1.5 Bayes 推断 


在 Bayes 推断 中 , 由 于 参数 被 看 作 随机 变量 , 故 概率 分 布 也 与 似 然 的 参数 有 关 ， 
在 参数 空间 中 用 来 定义 参数 的 主观 相对 概率 的 概率 分 布 反 映 了 人 们 对 参数 不 确定 
性 的 认 知 . 

假设 X 的 分 布 包含 参数 9. 以 /(9) 表示 观测 数据 前 关于 9 的 密度 , 则 称 其 为 
先 验 分 布 . 它 可 能 基于 以 前 的 数据 或 分 析 (初步 研究 ) 得 到 , 也 可 能 反 代 表 纯粹 的 个 
人 主观 信息 , 或 只 是 想 选 取 一 个 对 最 终 推 断 影响 有 限 的 分 布 . 

在 本 书 中 , 我 们 以 (ele) 表示 导出 Bayes 推断 的 似 然 . 当 有 了 0 的 先 验 分 布 
和 用 来 提供 有 关 9 信息 的 观测 数据 后 , 人 们 的 先 验 信息 必须 进行 更 新 , 以 反映 包含 
在 似 然 中 关于 9 的 信息 , 其 更 新 机 制 即 为 Bayes 定理 : 

j(elz] = cf(0)f (zl0) = cf (0)L(0]x), (1.30) 

其 中 称 f(6|z) 为 8 的 后 验 密度 , 而 9 的 后 验 分 布 常用 来 做 关于 9 的 统计 推断 上 
式 中 的 常数 c 等 于 J F(O)L(0jx)d0, 昌 经 常 难于 直接 计算 , 但 在 某 些 推断 中 我 们 并 
不 需要 求 < 本 书 将 给 出 多 种 进行 Bayes 推断 的 方法 , 其 中 包括 对 c 的 估计 . 

令 6 为 6 的 后 验 众 数 , 0° 为 9 的 真 值 . 在 正则 条 件 下 , 当 — oo 时 , 6 的 后 
验 分 布 收敛 于 N(9*,I(6*)-!), 这 与 8 的 MLE 的 极限 分 布 相同 . 由 此 收敛 可 以 看 
出 , 4 n > oo 时 , 观测 数据 淹没 了 任何 先 验 . 

假设 检验 的 Bayes 评价 依赖 于 如 下 的 Bayes 因子 .在 两 个 假设 或 模型 HM, He 
下 的 后 验 概率 之 比 为 
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PILE 四 _ PIH p 
Pile] Pim) 7 


(1.31) 


其 中 PIHi|x] 为 后 验 概率 , PIH) 为 先 验 概率 , H 


f(zIH2) _ J f(02|H2)f (zl02, H2)d02 


Poi = Flm) ` J I@H) (el, Hi)d0r 


(1.32) 


其 中 9; 为 在 第 i 个 假设 下 的 参数 . 量 Bo, 就 是 Bayes 因子 . 它 表 示 的 含义 为 : 4 
给 定数 据 后 , 用 先 验 机 会 比 乘 此 量 就 可 得 到 后 验 机 会 比 . 至 于 似 然 比 方法 , 我 们 要 
求 假设 Hy, Ho 不 能 相互 嵌 套 . 关于 Bayes 因子 的 计算 和 解释 请 参见 [321]. 

Bayes 区 间 估 计 经 常 依赖 于 95% 最 大 后 验 密度 (highest posterior density, HPD) 
区 域 . 一 个 参数 的 HPD 区 域 是 指 满足 如 下 条 件 的 总 长 度 最 短 的 区 域 : 参数 落 入 
此 区 域 的 后 验 概率 为 95%, 且 此 区 域内 任 一 点 的 后 验 密度 均 不 小 于 此 区 域外 任 一 
点 的 密度 值 . 当 后 验 为 单 峰 时 , HPD 就 是 包含 95% 后 验 概率 的 最 窗 区 间 . 可 信 区 
间 (credible interval) 是 Bayes 推断 中 更 一 般 的 区 间 估 计 . 100(1 - a)% 可 信和 区间 是 
介 于 后 验 分 布 的 a/2 和 1 一 a/2 分 位 数 间 的 区 域 . 当 后 验 密度 对 称 且 单 峰 时 , HPD 
与 可 信和 区间 相 同 . 

Bayes 推断 方法 的 一 个 基本 优点 就 是 它 的 可 信 区 间 和 其 他 推断 易于 解释 ， 例 
如 , 人 们 可 以 说 参数 落 入 某 区 域 的 后 验 概率 . 当然 也 有 关于 Bayes 方法 理论 基础 的 
研究 , 见 [25]. Gelman 等 人 在 [194] 中 给 出 了 有 关 Bayes 理论 和 方法 的 综述 . 

最 好 的 先 验 分 布 都 基于 先 验 数据 ， 一 个 便于 代数 运算 的 策略 就 是 寻找 共 思 的 
先 验 . 3648 AH(conjugate prior) 分 布 就 是 那些 能 导致 后 验 与 先 验 属 同一 分 布 族 的 
先 验 . 指数 族 是 天 生 的 、 具 有 共 斩 先 验 分 布 的 唯一 分 布 族 . 

当先 验 信息 很 少时 , 要 保证 所 取 的 先 验 分 布 对 后 验 推断 影响 不 大 是 非常 重要 
的 . 强烈 受到 先 验 影响 的 后 验 被 称 为 对 先 验 的 高 敏感 性 . 现 有 多 种 可 减少 敏感 性 的 
方法 .最 简单 的 方法 就 是 取 在 一 个 比 由 数据 支持 的 参数 区 域 更 广 的 区 域 中 的 均匀 
分 布 作为 先 验 . 另外 , 一 个 更 正规 的 方法 是 应 用 Jeffrey 先 验 , 见 [307]. 对 于 单 参数 
情形 , Jeffreys 先 验 是 f(9) x 1(6)-1/?, 其 中 I(0) 为 Fisher 信息 量 . 此 方法 也 可 推广 
到 多 参数 情形 . 在 某 些 情形 下 , 可 以 考虑 应 用 不 规范 先 验 (9) x 1, 但 此 先 验 有 可 
能 导致 不 规范 的 后 验 (如 不 可 积 ), 并 且 也 可 能 无 法 给 问题 的 参数 在 提供 任何 信息 . 

例 1.2 ( 正 态 - 正 态 共 斩 Bayes 模型 ) ”考虑 基于 独立 同 分 布 样本 Xi，… ,Xn 
的 Bayes 推断 , 其 中 X;|6 ~ N(9,o?) H o? 已 知 . 对 于 此 时 的 似 然 , 正 态 先 验 是 共 
RE. 假设 9 的 先 验 为 : 9 ~ N(u,7?), 则 后 验 密度 为 
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flOlz) x §() [I f(zi1e) (1.33) 
i=1 


E-o} 
f- (e at = = } (1.34) 


1 a+2)'/( 1 ) 
e ee eae 1.35 
wero {5 ( i) / (si (1.35) 


其 中 r 为 样本 均值 . 注意 到 (1.35) 仍 具 有 正 态 分 布 的 形式 ， 故 我 们 有 f(9|x) = 
N(un, 72), 其 中 


1 
2 = ， 1.36 
a (1.36) 
u ,nz a 
In = (与 + 5) 72. (1.37) 


于 是 , 9 的 95% 的 后 验 可 信 区 间 为 (un 一 1.967 :, pn + 1.967,). 由 于 正 态 分 布 是 对 
称 的 , 故 它 也 是 0 的 后 验 95% 的 HPD. 

对 于 固定 的 o 下面 考 虑 增 大 r 的 值 . 当 7? 一 co 时 , 9 的 后 验方 差 收敛 于 
02/n. 这 就 是 说 , 当先 验方 差 增 大 时 , 先 验 对 后 验 的 影响 在 逐步 消失 . 另外 , 注意 到 
,lim_ iz = 1 此 式 说 明 , 当 样本 容量 增加 时 ,9 的 后 验方 差 与 MLE6 = X 的 抽样 
方差 渐 近 相等 , 即 此 时 r 的 影响 被 消除 . 

作为 共 辆 先 验 的 替补 , 我 们 考虑 非 规范 先 验 f(0)x1. 此 时 , f(9|x)=N(z,o2/n)， 
H 95% 的 后 验 可 信 区 间 就 是 由 频率 方法 得 到 的 标准 的 95% 的 置信 区 间 ， 口 


1.6 ”统计 极限 理论 


尽管 本 书 最 关心 的 是 对 各 种 方法 如 何 工作 及 是 否 有 效 的 验证 , 但 有 时 更 精确 地 
讲述 由 某 些 方法 产生 的 估计 的 极限 行为 是 非常 有 益 的 .下 面 我 们 将 回顾 概率 统计 
中 的 几 个 基本 的 收敛 概念 . 

称 一 个 随机 变量 列 X, Xa , 依 概率 收 化 到 随机 变量 X, 如 果 对 于 任意 的 e > 
0, lim PLXn 一 X| < e] = 1. 称 此 随机 变量 列 几乎 处 处 收敛 到 X, 如 果 对 于 任意 的 
€>0, P[lim |Xn—X|<¢]=1. 称 此 随机 变量 列 依 分 布 收敛 到 X, 如 果 在 Fx 的 
任 一 连续 点 z, 都 有 lim, Fx, (©) = Fx (x). 称 一 个 随机 变量 X 几 乎 处 处 具有 性 质 
A, 如 果 PLA] = [uates =1. 


在 统计 中 ,大 数 定律 与 中 心 极限 定理 是 流传 久远 的 收敛 定理 .对 于 一 维 的 独 
立 同 分 布 随机 变量 列 Xi1,… , Xn, Xn = È Xi/n. 弱 大 数 定律 指出 : WR 
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E{|Xi|} < 00, 则 Xn 依 概率 收敛 到 p = E{X:} 强大 数 定律 指出 : 如 果 E{|X;|} < 
co, 则 部， 几乎 处 处 收敛 到 u = E{Xi}。， 在 某 些 较 严 格 但 易 验 证 的 条 件 下 ， 如 
Var{Xi} = 0? < 00, 上 述 两 个 结论 均 成 立 . 

WR 9 是 一 个 参数 , Ti 是 一 个 基于 X1,… Xn 的 统计 量 , 则 称 Th 是 9 的 弱 
或 强 相合 估计 , WMR Ta 分 别 依 概率 或 几乎 处 处 收敛 到 9. 如 果 ET, } = 0, 则 称 Th 
是 无 偏 的 , 否则 其 偏差 为 E{T,} -9. WRH n 一 co 时 , 其 偏差 趋 于 0, 则 它 是 渐 近 
无 偏 的 . 

下 面 给 出 中 心 极限 定理 的 简单 形式 . 假设 独立 同 分 布 随机 变量 列 Xi,… ,Xn 
具有 均值 y 和 有 限 方差 o, A Efexp{tXi}} 在 上 = 0 的 一 个 临 域内 存在 ， 则 当 
n 一 oo 时 , 随机 变量 Tn = Jn(Xn — p)/o 依 分 布 收敛 到 标准 正 态 随机 变量 . 中心 
极限 定理 的 形式 多 种 多 样 . 一 般 来 讲 , 方差 有 限 的 条 件 很 关键 , 而 独立 同 分 布 的 条 
件 在 某 些 情况 下 可 以 放松 , 


1.7 马 R 链 


本 节 我 们 将 简单 介绍 一 下 单 变量 的 离散 时 间 及 离散 状态 空间 的 马 氏 链 . 第 7, 
8 章 将 用 到 马 氏 链 、 有 关 马 氏 链 的 较 详细 介绍 可 参见 [467], 更 高 层次 的 研究 请 见 
[393, 460]. 
考虑 一 随机 变量 列 {X 中 },t = 0,1,…, 其 中 每 一 个 XO 均 可 能 取 有 限 或 可 列 
个 数值 中 的 一 个 . 称 这 些 值 为 状态 . 记号 XO = 7 意味 着 此 过 程 在 上 时刻 处 于 状态 
j 称 随 机 变量 XO 的 所 有 可 能 取 值 的 集合 S 为 状态 空间 . 
从 概率 角度 完全 刻画 XO), ,Xe 的 是 作为 随机 变量 历史 值 的 条 件 分 布 之 
积 的 联合 分 布 , 即 
P [x®,.-. XO] =P [xO |2,... ze] xP [x2 ain) 
xox P [x2] P [x] . (1.38) 
在 独立 性 假设 
P 4 oD] =P [xe] (1.39) 


下 , (1.38) 式 可 被 简化 . 此 时 , 观测 到 的 下 一 个 状态 仅 依赖 于 当前 状态 , BLE R 
性 , 有 时 也 称 为 一 步 记忆 . 在 这 种 情况 下 , 我 们 有 


P[X®,... xe = P[x™2—] % P [xe] 


xx P [x2] P [x] ; (1.40) 


12 81% 回 顾 


令 pt) 为 从 t 时 刻 状态 i 转移 到 t+ 1 时 刻 状态 7 的 概率 . 如 果 对 所 有 的 


t=0,1, 和 zoz0， ,z(t-D,i,jeE 5, 有 
pi =P [er = 5|X = 720), XGO =, ,XO = i] 
=P [xen =jx® = i] (1.41) 


则 称 序列 {XO} t=0,1, 是 一 条 马 氏 链 , 且 称 pl 为 一 步 转移 概率 . 如 果 一 步 转 
移 概率 不 随 t 改变 , 则 称 此 链 为 时 间 齐 性 的 , B pO = py. 如 果 每 个 一 步 转移 概率 
均 随时 间 t 在 变化 , 则 称 此 链 为 时 间 非 齐 性 的 . 

一 条 马 氏 链 的 性 质 由 其 转移 概率 阵 所 决定 . 不 失 一 般 性 , 假设 状态 空间 S 中 的 “ 
s 个 状态 均 取 整数 , 则 以 P 记 一 个 时 间 齐 性 马 氏 链 的 sx s 的 转移 概率 阵 , 其 (i j) 
元 为 pj P 中 的 每 个 元 素 都 必须 介 于 0 和 1 之 间 , 且 每 行 之 和 等 于 1. 

例 1.3 (旧金山 气候 ) ”我 们 考虑 旧金山 的 日 降雨 量 . X 1.4 给 出 了 1 814 对 相 
继 两 天 的 降雨 结果 ( 见 [417]), 这 些 数据 取 自 每 年 的 11 月 到 次 年 3 月 的 测量 结果 ， 
且 从 1990 年 11 月 开始 到 2002 年 3 月 结束 . 旧金山 在 这 些 月 份 中 的 降雨 量 占据 了 
全 年 的 80%. 我 们 把 每 天 考虑 成 两 种 情形 : 如 果 记 录 到 一 天 的 降雨 量 多 于 0.01 英 
F, 则 称 之 为 有 雨 ; 否则 就 称 为 无 雨 , 于 是 , S 有 两 个 元 素 : 有 雨 与 无 雨 . 以 随机 变 
量 XO 表示 第 t RRS. 


#14 例 1.3 中 旧金山 的 降雨 数据 


SRAM 今天 无 雨 
ERAN 418 256 
EREN 256 884 


在 假设 时 间 齐 性 的 条 件 下 , XO 的 转移 概率 阵 的 估计 值 为 


| 0.620 0.380 | i (1.42) 


0.224 0.775 


显然 , 旧金山 有 十 与 无 雨 的 天 气 状态 不 是 独立 的 , 这 是 因为 : 有 雨 后 很 有 可 能 仍 有 
W, 而 无 雨 后 仍 无 雨 的 可 能 性 最 高 . 口 

马 氏 链 的 极限 理论 对 本 书 多 数 方法 的 讨论 非常 重要 . 下 面 , 我 们 将 简单 介绍 其 
中 的 一 些 结论 . 

我 们 称 能 以 概率 1 回来 的 状态 为 常 返 的 , 称 一 个 平均 返回 时 间 有 限 的 常 返 状 
态 为 非 零 常 返 的 , 如 果 状 态 空间 有 限 的 话 , 其 常 返 状态 都 是 非 零 常 返 的 . 

称 一 条 马 氏 链 是 不 可 约 的 , 如 果 从 其 任 一 状态 i 经 有 限 步 后 都 可 到 达 任 一 状态 
j 也 就 是 说 , 对 于 任 两 个 状态 i,j, 都 存在 m > 0 使 得 PAX = |X = j) > 0. 
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称 一 条 马 氏 链 是 周期 的 , 如 果 经 过 某 些 周期 性 步 长 后 可 能 达到 状态 空间 的 某 部 分 . 
称 状态 j 具有 周期 d, 如 果 由 状态 j 经 非 d 整数 倍 步 到 达 j 的 概率 为 0. 如 果 一 条 
马 氏 链 的 每 一 个 状态 的 周期 都 为 1, 则 称 此 链 为 非 周期 的 . 如 果 一 条 马 氏 链 是 不 可 
约 、 非 周期 , 且 其 所 有 状态 都 是 非 零 常 返 的 , 则 称 之 为 遍历 的 . 

令 r 表示 和 为 1 的 概率 向 量 , 且 其 第 i 个 元 素 m 表示 XO = i 的 边际 概率 ， 
则 XC) 的 边际 概率 分 布 为 rTP. 任 一 离散 概率 分 布 r, 若 它 满足 nP = nT, 
则 称 之 为 P 或 转移 概率 阵 为 P 的 马 氏 链 的 平稳 分 布 . 如 果 XO 服从 一 平稳 分 布 ， 
则 XO 和 XY 的 边际 分 布 相同 . 

如 果 一 条 时 间 齐 性 的 马 氏 链 满 足 


TiPij = TPi, Vi,G ES, (1.43) 


则 oe 是 此 链 的 平稳 分 布 , 且 称 此 链 为 可 逆 的 . 其 原因 为 : 此 链 的 正 向 或 反 向 观测 值 
序列 的 联合 分 布 是 相同 的 . 方程 (1.43) 也 称 为 细致 平衡 (detailed balance). 

如 果 一 个 转移 概率 阵 为 P, 平稳 分 布 为 r 的 马 氏 链 是 不 可 约 的 且 非 周期 的 , 则 
下 唯一 ， 且 满 足 


tim P [em = |x = il = 7;, (1.44) 

Hp nj 是 n 的 第 j 个 元 素 , 且 满足 如 下 方程 组 : 
75 20, om =1, H rj =) py, Yj Es. (1.45) 

iES ieS 


我 们 重 述 和 推广 (1.44) 式 如 下 : 如 果 XM, XO)... 是 一 不 可 约 、 非 周期 的 平 
稳 分 布 为 的 马 氏 链 值 , 则 XO 依 分 布 收敛 到 分 布 为 r 的 随机 变量 , 且 对 任 一 函 
Bh, 4 En{Ih(X)|} 存在 , H n 一 co 时 , 以 概率 1 有 ([510]) 


LSA) > En (hX) (1.46) 


这 就 是 作为 强大 数 定律 推广 形式 的 遍历 定理 . 

本 节 仅 考虑 了 离散 状态 空间 的 马 氏 链 . 我 们 将 在 第 7, 8 章 把 上 述 思想 推广 到 
连续 状态 空间 的 情形 .对 于 连续 状态 空间 和 多 元 随机 变量 的 原理 和 结果 都 与 本 章 
讨论 的 类 似 . 


1.8 it 算 


如 果 你 不 熟悉 计算 机 编程 或 希望 学 习 一 种 新 语言 , 则 最 好 立刻 去 学 . S-Plus 是 
学 习 或 教授 统计 计算 的 首选 语言 , 但 我 们 尽量 避免 在 本 书 内 容 中 指定 某 种 语言 . 及 
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语言 是 免费 的 且 与 S-Plus 互 有 补充 . 本 书 中 的 多 数 方法 都 很 容易 由 其 他 用 于 数学 
和 统计 的 高 级 计算 机 语言 来 实现 , 如 SAS 和 MATLAB 等 . 编程 也 可 用 Java 及 其 
他 低级 语言 , 如 C++ 和 Fortran 等 . 总 之 , 其 指导 思想 就 是 : 计算 需要 在 高 级 语言 
的 易于 计算 与 低级 语言 的 计算 速度 间 的 折衷 .本 书 的 主页 给 出 了 上 述 和 其 他 有 用 
软件 的 链接 , 也 给 出 了 本 书 某 些 方法 的 程序 . 

从 理想 的 角度 看 , 一 个 人 的 计算 机 编程 能 力 包括 对 计算 机 运算 的 基本 理解 ， 即 
在 计算 机 的 二 进 制 世界 里 如 何 实现 一 个 实数 及 数学 运算 . 虽然 本 书 侧重 高 级 计算 问 
题 , 但 是 , 我 们 所 讲 的 算法 均 要 求 考虑 计算 机 运算 的 多 次 重复 或 处 理 此 类 问题 的 可 
DALE. 对 此 内 容 有 兴趣 的 读者 请 参见 [334]. 
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极 大 似 然 估 计 是 统计 推断 的 核心 . 学 习 MLE 的 理论 表现 和 其 解析 形式 的 导出 
都 需要 大 量 时 间 和 精力 . 然而 , 当面 临 没有 解析 形式 的 复杂 似 然 时 , 多 数 人 仍 不 知 
如 何 处 理 . 

多 数 函数 都 没有 解析 形式 的 优化 解 . 比如 , 当 通 过 令 其 关于 z 的 导数 等 于 0 来 
求解 函数 g(x) = log z/(1 + x) 的 最 大 值 时 , 可 能 会 导致 + 1/z - loge = 0 没有 代 
数 解析 解 的 僵局 . 实际 上 , 包括 似 然 等 统计 中 许多 常用 方法 都 可 能 无 法 得 到 解析 解 ， 
于 是 , 一 个 较 现实 方法 就 是 减少 对 解析 最 优 解 的 依赖 . 

除 极 大 似 然 外 , 统计 学 家 也 面临 着 其 他 的 优化 问题 . 例如 , 在 Bayes 决策 问题 
中 的 最 小 风险 、 非 线性 最 小 二 乘 问题 的 求解 、 多 个 分 布 的 最 高 后 验 密度 区 间 的 求 取 
以 及 其 他 一 些 包含 最 优化 的 问题 等 上 述 问题 的 求解 都 属于 如 下 的 一 般 问 题 : 一 个 
实 值 函数 9 关于 其 p 维 自 变量 z 的 最 优化 . 本 章 将 仅 限 于 考虑 9 关于 z 为 光滑 且 
可 微 的 情形 . 第 3 章 将 考虑 9 在 离散 区 域 上 的 优化 问题 . 由 于 最 大 化 一 个 函数 等 价 
于 其 负 值 的 最 小 化 , 故 区 别 最 大 与 最 小 的 意义 不 大 . 于 是 作为 惯例 , 我 们 一 般 将 考 
虑 求 取 最 大 值 的 算法 . 

对 于 极 大 似 然 估 计 , g 是 对 数 似 然 函数 1, z 对 应 着 参数 向 量 9. 如 果 Ô 是 MLE, 
则 它 最 大 化 其 对 数 似 然 , 即 6 是 得 分 方程 


1(9) =0 (2.1) 


的 解 ,其 中 P(9) = (H, KO), 0 是 元 素 为 0 HL. 

我 们 即 可 看 出 , 优化 问题 与 求解 非 线性 方程 组 密切 相 联 . 于 是 , 重新 理解 本 章 
内 容 为 方程 组 求解 比 理 解 为 求解 优化 问题 更 合理 , 如 求 取 MLE 就 相当 于 求解 得 
分 方程 的 根 . 9 的 最 大 值 就 是 方程 9'(z) = 0 的 解 (相反 , 人 们 也 可 以 通过 极 小 化 
lg (x)| 把 单 变量 的 求解 问题 转换 成 优化 问题 , 其 中 g 是 一 个 需要 求 其 根 的 函数 ). 

当 方程 组 g'(x) = 0 没有 解析 解 时 , 求 其 解 很 困难 . 此 时 , 多 数 方程 组 是 非 线性 
的 .而 当 方 程 组 是 线性 时 , 因 其 个 数 很 多 , 其 解 仍 很 难 求 取 . 这 样 的 线性 方程 组 可 
以 利用 线性 规划 方法 , 如 单纯 形 法 ( 见 [114, 173, 217, 425]) 和 内 点 法 ( 见 [304, 318, 
465]) 来 求解 . 本 书 将 不 再 介绍 这 些 方法 . 

我 们 可 以 利用 多 个 畅销 的 数学 优化 软件 来 解决 非 线性 光滑 函数 的 优化 问题 , 其 
中 多 数 程序 都 是 非常 有 效 的 . 于 是 , 本 书 将 不 重点 考虑 这 些 能 利用 现 有 软件 可 获得 
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很 好 解决 的 优化 问题 . 例如 , 虽然 均匀 随机 数 在 统计 计算 中 具有 很 重要 的 作用 , 但 
由 于 它 很 容易 由 高 级 软件 程序 求 得 , 故 本 书 将 不 再 讲述 它 的 产生 问题 . 那 什么 样 的 
优化 问题 被 认为 是 与 众 不 同 的 ? 时 刻 都 需要 优化 软件 处 理 一 个 新 的 优化 函数 的 问 
题 就 是 与 众 不 同 的 . 如 对 于 一 些 较 难处 理 的 似 然 , 即使 最 好 的 优化 软件 也 经 常 无 法 
直接 应 用 , 而 要 略 作 修 改 才 可 以 求解 . 因此 , 用 户 必须 充分 理解 优化 如 何 进行 才能 
顺利 地 解决 此 类 问题 . 

我 们 先 研究 单 变量 的 优化 问题 . 2.2 节 将 其 推广 到 多 变量 问题 . 第 3 章 将 介绍 
离散 空间 上 的 优化 问题 , 而 第 4 章 将 涉及 缺失 数据 的 特殊 情况 . 

关于 优化 方法 的 相关 参考 文献 包括 [173, 217, 133, 405, 415, 422]. 


2.1 单 变量 问题 
本 节 将 要 讨论 的 一 个 简单 单 变量 数值 优化 问题 就 是 求 取 函数 


so- ris 
关于 z 的 最 大 值 . 由 于 不 存在 解析 解 , 故我 们 借助 于 迭代 方法 以 求 得 其 近似 解 . 由 
图 2.1 给 出 的 g(z) 的 图 像 可 以 看 出 其 最 大 值 点 在 3 附近 . 于 是 , 我 们 有 理由 选取 
z(0 = 3.0 作为 迭代 的 初 值 . 如 当前 值 为 z(t = 0,1,2,---) 时 , 则 由 更 新 方程 可 得 
到 一 个 更 新 cD, 直至 和 迭代 结束 ， 此 时 的 更 新 可 由 求 方程 g(z) = Hae 的 
根 得 到 , 也 可 由 其 他 合理 的 方法 得 到 . 


0.3: 


(22) 


0.2. 


图 2.1 g(x) = 经 = 的 最 大 值 点 为 2* ~ 3.591 12, 由 图 中 竖 直 虚线 表示 


下 面 以 二 分 法 (bisection method) 为 例 来 说 明 迭 代 求 根 过 程 . 如 果 g' 在 区 间 
[ao, bo] 上 连续 , 且 g'(ao)g'(bo) < 0, 则 由 中 值 定理 ([473]) 知 , 至 少 存在 一 个 r* € 
lao, bol, 使 得 g'(z*) = 0, BN z* 是 9 的 局 部 最 优 值 . 为 求 得 最 优 解 , 把 区 间 [ao, bo] 缩 
短 至 [ai, bi], 再 到 区 间 (a2, bo] 等 等 , 其 中 [a0, bo] D [a1, b2] D [a2,b2] 2 … - 

设 2 = (oo + bo)/2 为 初 值 , 则 更 新 方程 为 
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[arc], 如 果 g'(ar)g'(z®) < 0, 


[at+1, ber1] = { [ec@, 则 ， 如 果 g'(ar)g/(@) > 0, 


(2.3) 


a) = (ar41 + beri)/2. (2.4) 


WR 9 在 初始 区 间 内 的 根 多 于 1 个 , 则 容易 看 到 二 分 法 将 只 找到 其 中 一 个 , 而 
找 不 到 其 余 的 根 . 

例 2.1 (一 个 简单 的 单 变量 优化 ) ”为 找到 (2.2) 的 最 大 值 点 z, 我 们 可 以 取 
ao = 1,b9 = 5,2 = 3. 图 2.2 给 出 了 利用 二 分 法 求 这 个 简单 函数 最 值 的 前 几 步 . 口 


图 2.2 例 2.1 的 二 分 法 图 示 . 此 图 的 上 半 部 分 给 出 了 g'(z) 和 它 的 根 z*, 下 半 部 分 给 出 了 取 
(ao, bo) = (1,5) 时 二 分 法 的 前 三 个 区 间 . 根 的 第 t 个 估计 为 第 t 个 区 间 的 中 心 


假设 g(z) 关于 z 的 最 大 值 在 z* 达到 , 则 当 t 一 co 时 , 任何 迭代 方法 都 希望 
更 新 方程 满足 cO So 然而 它们 都 无 法 保证 rO 收敛 , 更 不 用 说 收敛 到 z*， 

实际 上 , 我 们 不 允许 程序 的 运行 结果 是 不 确定 的 , 于 是 , 我 们 需要 一 个 基于 某 
种 收效 准 则 的 停止 准则 以 便 结束 迭代 运算 从 而 取得 近似 值 . ZEAE ABR, 都 将 检 
验 此 停止 准则 . 当 满足 收敛 准则 时 , 即 取 最 近 的 zt+5 作为 所 求 值 . 停止 的 原因 有 
两 个 : 如 果 程 序 已 经 达到 令 人 满意 的 收敛 或 看 起 来 不 可 能 很 快 取得 满意 的 结果 , 就 
停止. 

通过 跟踪 (0) 接近 0 的 程序 来 监测 收敛 情况 是 诱 人 的 ， 然 而 , 甚至 当 
go (2) 非常 小 时 , 也 可 能 出 现 从 z 到 ol) 的 改变 非常 大 的 情况 , 于 是 , 仅 依 
HF g'(ze+0) 大 小 的 停止 准则 不 十 分 可 靠 . 另外 , 从 z@ 到 ol) 的 一 个 很 小 的 
改变 最 有 可 能 与 g(zt+0) 在 0 附件 有 关 . 因此 , 我 们 经 常 通过 监测 jolt) — r] 
及 把 g'ad 作为 后 备 检验 来 评估 算法 的 收敛 性 . 

绝对 收 化 准则 的 停止 准则 为 


t+) _ Ol <e, (2.5) 
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其 中 常数 e 是 选 定 的 可 容忍 精度 . 对 于 二 分 法 , 容易 验证 
bi — a = 2 (bo — ao). (2.6) 


当 2-(+1) (bg — ao) < ô, Bl t > logz{(bo — ao)/6} — 1 时 , 将 达到 真正 的 容忍 误差 
\2 - z*| < 6. 5 减 小 10 倍 ,上 将 增 大 log, 10 = 3.3. 于 是 , 若 精度 要 增加 10 个 百 
分 点 , 则 需要 将 迭代 步 数 增加 3 到 4 步 . 

相对 收效 准则 要 求 当 


|ze+5 — z| 

[2] 
IPR LE WEAR. 此 准则 可 以 在 不 必 考虑 z 的 单位 的 情况 下 达到 指定 的 目标 精度 , 如 
1%. 

依 实际 问题 选择 应 用 绝对 还 是 相对 收敛 准则 . 如 果 z 的 刻度 相对 于 e 很 大 (或 
很 小 ) 时 , 绝对 收敛 准则 有 时 将 相当 不 情愿 地 停止 迭代 或 欠 代 很 快 就 停止 了 ， 相 对 
收敛 准则 对 z 的 刻度 做 了 校正 ， 但 当 2 的 值 (或 真 值 ) 与 0 非常 接近 时 , 它 将 变 
得 不 稳定 , 此 时 , 我 们 可 以 通过 当 二 of < e 时 停止 选 代 来 修正 相对 收敛 准则 ， 

当 9 连续 时 , 二 分 法 有 用 .在 方程 (2.6) 两 边 取 极限 后 有 lima = lim bi, 
于 是 二 分 法 收敛 到 某 点 z(%)， 由 于 此 方法 保证 g'(a1)g'(be) < 0, 故 连续 性 可 保证 
g'(x) <0. 于 是 , g(a) 必 等 于 0. 这 就 是 说 z(%) 是 9 的 一 个 根 . 换 句 话说 ， 
二 分 法 能 从 理论 上 保证 其 收敛 到 [ao, bo] 内 的 一 个 根 . 

事实 上 , 计算 机 在 数字 上 的 不 精确 性 可 能 影响 算法 的 收敛 性 . 对 于 多 数 迭 代 近 
似 方法 , 一 种 安全 做 法 就 是 每 次 均 对 前 面 近似 结果 做 一 小 的 修正 , 而 不 是 重新 开始 
一 个 新 的 近似 . 如 果 我 们 不 用 at+i = (at 十 b)/2 而 用 atı = at + (bi — a)/2 来 计 
算 区 间 中 点 , 则 二 分 法 的 数字 计算 更 稳定 . 然而 , 出 于 各 种 各 样 的 原因 , 一 个 精心 编 
写 的 算法 或 比 二 分 法 更 复杂 的 优化 程序 也 可 能 失败 . 另外 , 值得 注意 的 是 , 有 多 种 
病态 情形 使 得 MLE 不 是 得 分 方程 的 解 或 者 MLE 不 是 唯一 的 (例如 见 [109]). 

对 于 这 些 非 正 常情 形 , 给 出 一 个 标记 不 收敛 的 停止 准则 是 重要 的 . 此 时 一 个 简 
单 的 做 法 就 是 不 论 收敛 与 否 , N RUB Ie. 而 一 个 聪明 做 法 是 考虑 一 个 或 
多 个 收敛 度量 , 比如 eD 一 z9| 或 [xD — O| / [2] BR g(a). 如 果 每 
一 个 都 不 单 减 或 若干 次 迭代 后 出 现 了 周期 , 则 迁 代 停 止 , 有 时 解 本 身 也 可 能 出 现 不 
令 人 满意 的 周期 性 . 此 时 , 如 果 算 法 得 到 的 收敛 点 明显 不 如 我 们 已 经 知道 的 另 一 个 
好 , 则 明智 的 做 法 是 停止 迁 代 . 这 样 将 避免 找到 的 结果 是 一 个 已 经 知道 的 假 的 峰值 
或 局 部 最 大 值 . 不 管 应 用 哪个 停止 准则 , 收敛 较 差 就 意味 着 必须 扔 掉 z(t+1 且 在 某 
种 意义 上 必须 重新 开始 以 便 更 可 能 成 功 收敛 . 

开始 如 停止 一 样 重要 . 一 般 地 , 一 个 差 的 初 值 可 能 导致 算法 发 散 、 周 期 性 、 误 
入 歧途 的 局 部 最 大 或 最 小 以 及 其 他 问题 . 这 些 结果 均 依 赖 于 函数 g、 初 值 和 所 用 的 


< (2.7) 
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优化 算法 . 一 般 地 , 只 要 9 在 包含 z(0 和 z* 的 临 域内 不 垂直 于 r, 则 选取 初 值 接 
近 整 体 最 优 值 是 有 帮助 的 . 产生 合理 初 值 的 方法 有 图 示 法 、 初 估计 (如 和 矩 估计 )、 有 
根据 的 推测 和 反复 试 错 法 等 .如 果 计 算 机 运行 速度 限制 你 所 能 承担 得 起 的 迭代 次 
数 , 则 聪明 的 做 法 是 不 要 把 所 有 的 运算 资源 都 用 到 此 优化 算法 的 长 时 间 运 行 上 . 应 
用 多 个 初 值 进行 运算 是 一 个 获得 可 信 运 行 结果 的 有 效 方法 且 能 避免 得 到 局 部 最 优 
和 运算 发 散 . 

当 一 种 方法 由 一 组 长 度 单 减 的 且 根 在 其 中 的 相互 嵌 套 的 区 间 组 成 时 , 就 称 其 
为 括 入 根 法 (bracketing method), 二 分 法 即 属于 这 种 方法 ， 二 分 法 的 收敛 速度 很 
慢 ， 即 相对 于 后 面 讨论 的 其 他 方法 而 言 , 为 达到 要 求 的 精度 , 它 需 要 更 多 次 的 迭 
代 . 其 他 的 括 入 根 法 还 有 正 割 括 入 根 法 (secant bracket, 见 [534]), Ilinois 方法 ( 见 
[305])、Ridder 方法 ( 见 [454) 和 一 种 速度 很 快 的 Brent 方法 ( 见 [62]), 其 中 正 割 括 
入 根 法 在 运算 初期 很 有 效 , 但 随后 速度 将 会 很 慢 . 

括 入 根 法 除了 收敛 速度 相对 慢 些 外 , 它 比 本 章 后 面 介绍 的 其 他 方法 具有 明显 的 
优势 . 如 果 g' 在 区 间 [ao,bo] 上 连续 , 则 不 论 g" 是 否 存在 或 是 否 容易 导出 , 其 根 都 
可 以 由 括 入 根 法 找到 . 因为 它们 不 必 考 虑 g”, 故 相对 其 他 强烈 依赖 g 的 光滑 性 的 
方法 , 括 入 根 法 有 合理 的 一 面 . 

2.1.1 Newton 法 


Newton 法 是 一 种 快速 求 根 的 方法 ， 有 时 也 称 之 为 Newton-Raphson 迭代 (特别 
是 在 单 变 量 情形 ). 假设 g' 是 连续 可 微 的 且 g"(z*) A 0. 在 第 + 次 迭代 , 此 方法 通过 
线性 Taylor 级 数 展开 


0 = g'(2*) ~ g'(2®) + (rz — 2) 9") (2.8) 
来 近似 g'(a*). 
因为 g' 可 由 在 点 zt 的 切线 值 近似 , 故 用 此 切线 的 根来 近似 g 的 根 看 来 是 合 
理 的 . 于 是 , 解 上 述 关 于 z* 的 方程 , 我 们 有 
g (2) 
g(x) 
此 方程 告诉 我 们 , 对 z* 的 近似 依赖 于 当前 的 估计 值 oO 和 一 个 修正 hO. 重复 此 
过 程 , 则 Newton 法 的 更 新 方程 为 


EE fe 


= +h”. (2.9) 


ott) = 7 4 A, (2.10) 


其 中 AO = —9'(2)/9"(2). 如 用 二 次 Taylor BH g(x") + (at — 2l)g"(e) 十 
(a* — 2)? 9"(@) /2 来 近似 g(z*), 则 可 得 到 类 似 的 更 新 方程 . 当 关于 g 的 优化 对 
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应 着 MLE 问题 且 6 是 1(9) = 0 的 根 时 , Newton 法 的 更 新 方程 为 


v6) 
ott) = 9 一 Toy" (2.11) 


例 2.2 (一 个 简单 的 单 变量 优化 , 续 ) 图 2.3 给 出 了 利用 Newton 法 求 简单 函 
数 (2.2) 最 值 的 前 几 次 迭代 . 


12.3 Bi 2.2 中 Newton 法 的 图 示 . 第 一 步 , Newton 法 用 在 sO 点 的 切线 值 近似 g, 并 用 
其 切线 的 根 cO 近似 真实 的 根 z*. 第 二 步 类 似 地 得 到 2, 它 已 经 很 接近 z” 了 


此 问题 的 Newton 增 量 为 


a® = (x +1)(1 + 1/2 — log z®)) 
~ 344/29 +1/(2)? — 2log 2” 
当初 值 为 2) = 3.0 时 , Newton 法 很 快 求 得 (9 = 3.591 12. 作为 比较 , 在 例 2.1 中 
的 二 分 法 直到 第 19 步 迭 代 其 近似 值 的 前 五 位 数字 仍 未 正确 确定 . o 
Newton 法 的 收敛 性 依赖 于 9 的 形状 和 初 值 . 图 2.4 给 出 了 一 个 从 初 值 就 发 散 
的 例子 . 为 了 更 好 地 理解 什么 有 益 于 收 和 敛 , 我 们 必须 仔细 地 分 析 每 相 邻 两 步 间 的 误 
差 . 


(2.12) 


ry 


图 2.4 由 于 每 一 步 与 真 值 z* 的 距离 都 在 增加 , 故 Newton 法 从 初 值 2 开始 就 发 散 


假设 g 具有 二 阶 连续 导数 且 g"(z*) #0. AW g(x") 40 H g" 在 xz* 处 连续 ， 
则 必 存 在 x* 的 一 个 邻 域 , 使 得 在 此 邻 域内 g(x) A 0. 我 们 仅 在 此 邻 域内 考虑 , A 
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定义 cf) = gl) 一 z*. 
由 Taylor 展开 有 


O= g(a") = 92) + (2* — 2g" (x) + (e* — 2)? g"(q)/2, (2.13) 
其 中 4 介 于 zt 与 z* 之 间 . 移 项 后 , 我 们 有 


mm 
£ # t))2_9 (a) 
a) 4 A — 2* = (2* — r) yay’ (2.14) 


其 中 AO 是 Newton 更 新 增 量 . 由 于 上 式 左 边 等 于 sD — ot, 故我 们 有 


go") 
ft) = (OP ar TO (2.15) 


现 对 某 个 5 > 0, 考虑 z* 的 邻 域 Ns(z*) = [z* — ô, e" + 6). 记 


c(6) = ge i (2.16) 


max 
ZIT2EA6(Z") 


因为 当 5 一 0 BE, o(6) — | te 
的 5, 则 由 (2.15) 式 得 


,所 以 5 一 0 时 , 6c(6) 一 0. 我 们 取 满足 5c(6) < 1 


Je(aye**9| < (coco) ， (2.17) 
假设 一 个 初 值 满足 [e0| = |x — z*| < ô, 则 由 (2.17) 式 得 


leo|s = (2.18) 

4 t> oo 时, 上 式 收敛 到 0, FH, cl) scr. 

刚才 我 们 证 明了 如 下 定理 : 如 果 g” 连续 且 z* 为 9' 的 一 个 单 根 , 则 存在 2* 
的 一 个 邻 域 , 当初 值 为 此 邻 域内 任 一 点 时 , Newton 法 都 收敛 到 z*. 

事实 上 , 当 of 二 阶 连续 可 微 ,为 凸 函数 且 根 存 在 时 , 则 无 论 初 值 如 何 取 , Newton 
法 都 收敛 到 此 根 . 如 果 初 值 位 于 一 个 区 间 (a,b), 则 需要 验证 下 列 一 些 条 件 . 如 果 

(1) 在 区 间 [a,b] E, g(x) £0; 

(2) 在 区 间 [a,b] E, g” (x) 不 变 号 ; 

(3) g'(a)g'(b) < 0; 

(4) lg'(a)/g"(a)| < b— a H |g'(b)/g”(b)] < b — a, 
则 对 于 此 区 间 内 的 任 一 个 初 值 z(%, Newton 法 都 将 收敛 . 上 述 结果 可 以 在 许多 初等 
数值 分 析 书 上 找到 , 如 [112,173,217,328]. 在 不 太 严格 条 件 下 的 收敛 定理 可 见 [423]. 
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BI Bp 


收敛 阶 数 是 用 来 度量 如 Newton 法 等 求 根 方法 的 收敛 速度 的 一 个 量 . 称 某 方法 
的 收敛 阶 数 为 8, 如 果 Jim ea =0 H 


p e¢+0] 


ei Jeo? (2.19) 
其 中 常数 c 关 0 且 8 > 0. 在 精确 近似 真 值 可 以 达到 的 情况 下 , 高 阶 收敛 为 优 . 然 
而 , 某 些 高 阶 收敛 方法 是 以 付出 稳 键 的 代价 而 实现 的 , 某 些 速度 较 慢 的 方法 会 比 其 
对 应 的 快速 算法 更 安全 . 

对 于 Newton 法 , (2.15) 式 指 出 


(tt) g(a) 
(OP T 200 


如 果 Newton 法 收敛 , 则 其 连续 性 告诉 我 们 ， 此 方程 的 右 端 收 剑 到 知人 .于 是 ， 
Newton 法 二 次 收敛 , 即 8 = 2 E c= |GE). 二 次 收 全 速度 很 快 ， 一 般 地 , 解 的 
精度 是 每 次 迭代 的 两 倍 . 

对 于 二 分 法 , 如 果 在 其 初始 区 间 有 解 的 话 , 由 于 其 每 次 迭代 区 间 的 长 度 均 减 半 
且 lim |e] = 0, 故 它 显示 出 具有 类 似 线性 收敛 (8 = 1) 的 特点 . 然而 , 不 必要 求 距 
oO — z* 每 次 选 代 都 缩小 , 且 它们 的 比值 可 能 是 无 界 的 , 于 是 , 对 于 任何 8 > 0， 
im, [Repel 可 能 不 存在 . 这 样 , 二 分 法 从 形式 上 就 不 满足 收敛 阶 数 的 定义 . 

我 们 可 能 会 用 一 个 如 二 分 法 一 样 安全 的 括 入 根 法 , 以 保护 快速 收敛 , 而 少 用 如 
Newton 法 这 样 缺 少 求 根 可 靠 性 的 方法 . 我 们 不 把 括 入 根 法 看 成 是 产生 下 一 步 估计 
值 的 方法 , 而 可 以 把 它 仅 看 成 是 能 提供 根 所 在 区 间 的 一 种 方法 . 如 果 Newton 法 某 
步 迁 代 结 果 不 在 当前 区 间 之 间 , 则 此 步 将 被 替换 或 前 除 , 如 在 多 元 情形 , 将 变更 此 
步 的 方向 . 2.2 节 和 [217] 给 出 了 某 些 策略 . 保护 性 措施 可 能 会 降低 一 个 方法 的 收敛 
阶 数 . 

2.1.2 Fisher 得 分 法 


梧 顾 1.4 节 ,7(b) 可 用 -U (0) 来 近似 ， 于是, 当 9 对 应 着 MLE 的 优化 问题 
时 , 在 Newton 更 新 方程 中 , 用 1(0) RER -1'(0) 是 合理 的 , 此 时 其 更 新 增 量 为 
AO = 1(9)/1(0), 其 中 100) 为 在 99 ARRA Fisher 信息 量 . 这 样 , 此 更 新 
方程 为 


(2.20) 


aed = 9 4 (9) 7(4)-}, (2.21) 
称 此 方法 为 Fisher 得 分 法 . 
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Fisher 得 分 法 与 Newton 法 具有 相同 的 渐 近 性 质 , 但 对 于 个 别 问题 , 一 个 可 能 比 
另 一 个 易于 计算 或 分 析 . 一 般 来 讲 , Fisher 得 分 法 在 迭代 之 初 效果 明显 , 而 Newton 
法 则 在 和 迭代 结束 前 效果 明显 . 


2.1.3 IESE 

在 Newton 法 中 , 其 更 新 增 量 (2.10) 依赖 其 二 阶 导数 g(a). 如 果 计算 此 导数 
比较 困难 , 则 可 以 用 离散 差分 C2) 来 近似 之 . 称 此 方法 为 正 制 法 (secant 
method), 其 更 新 方程 为 


2) — gt- 
TEOJ- FED) 


此 方法 需要 两 个 初 值 s,s). 图 2.5 给 出 了 用 此 方法 求 取 例 2.1 中 简单 函数 最 值 
的 前 几 步 . 


att) = g) — gig) vtz1. (2.22) 


图 2.5 用 介 于 sO Alc 间 的 正 割 线段 来 局 部 近似 g. 用 得 到 的 估计 值 s 与 z0) 一 起 
来 生成 下 一 个 近似 值 


在 类 似 于 Newton 法 的 条 件 下 , 正 割 法 也 将 收敛 到 根 z*. 为 求 得 其 收敛 阶 数 ， 
我 们 仅 在 某 个 合适 的 小 区 间 [a,b] 内 考虑 , 假设 此 区 间 包 含 rO, 1 和 zx*, 且 在 此 
区 间 内 %%(z) #0, g” (£) £0. W +D = 2+) _ z*, 则 可 直接 证 得 


ettD) aft) — z(t) g(a) /e — gi (xt-Y)/et-D [ee 
g(x) — g(x) g(t) — g(t-1) 
= AM BOM t-D (2.23) 


其 中 当 2 一 z* Bog” 连续 时 ，4G 一 1/g"(1*). 
为 得 到 BO 的 极限 , 对 g 在 z* 处 进行 Taylor 展开 : 


gf (2) = g'(2*) + (2 — 2*)g"(a*) + (2 — 2*)?g"(a*)/2, (2.24) 
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TE, 

go (xO) ~ g(a") + Og" (3*)/2. (2.25) 
类 似 地 , g'(zt-Dj/et-D x g(a") + e-d g" (1*)/2. 这 样 ， 
et) — elt-D) 


260 aD) ™ g" (x")/2, (2.26) 


经 仔细 验证 , 可 证 当 z( 一 z* 时 , 上 述 近似 是 严格 的 . 于 是 ， 


BY x g" (2*) 


edt+D gy dO) ed elt-D, (2.27) 
其 中 当 t 一 00 时 , d 一 ED =a. 
为 求 得 正 割 法 的 收敛 阶 数 , 我 们 必须 找到 6 满足 : lim Se =c, 其 中 为 常 


数 . 为 此 , 先 假设 上 式 成 立 , 并 用 此 比例 性 质 代替 (2.27) 式 中 的 -D 5 tD, 只 
RIT O, 经 整理 后 , 有 


nl 十 17B 
lim |e()/1-8+1/8 = 全 一 一 . (2.28) 
t 一 oo 


(2.28) 式 右 端 为 正常 数 , 故 1- 6+1/6 = 0, 其 解 为 B= (1+V5)/2 = 1.62. 于 
是 , 正 割 法 的 收敛 阶 数 低 于 Newton 法 . 


2.1.4 ”不 动 点 迭代 法 


一 个 函数 的 不 动 点 就 是 指 此 点 的 函数 值 等 于 其 自身 的 点 .用 不 动 点 方法 求 根 
就 是 要 确定 一 个 函数 G 使 得 g'(z) = 0 当 且 仅 当 Gla) = zx. 这 样 就 把 求 g' 的 根 的 
问题 变换 成 求 G 的 不 动 点 问题 , 而 利用 更 新 方程 rt+5 = GeO) 就 是 寻找 不 动 点 
的 最 简单 方法 . 

任何 合适 的 G 都 可 以 拿 来 尝试 , 但 选取 G(x) = g'(z) +2 是 显然 的 . 此 时 , 其 
更 新 方程 为 


ct) = 2 + g'(z®). (2.29) 

此 算法 的 收敛 依赖 于 G 是 否 是 收缩 的 (contractive). 要 使 G ÆR [a,b] 上 
是 收缩 的 , 则 它 必 须 满足 : 

(1) 只 要 ze [a,b], W G(x) € [a, b]; 

(2) 对 某 个 Ae [0, 1), |G(z1) — G(a2)| < Alz1 — 22|, Y 11, £2 € [a,b]. 
注意 到 上 述 区 间 [a,b] TORRY, 第 二 个 条 件 就 是 Lipschitz 条 件 , 称 A 为 Lipschitz 
常数 . WR G 在 区 间 (a,b) 上 是 收缩 的 , 则 在 此 区 间 内 存在 唯一 的 不 动 点 xz*, 且 对 
于 此 区 间 内 的 任 一 初 值 , 此 算法 都 将 收敛 到 此 不 动 点 . 此 外 , 在 上 述 条 件 下 , 我 们 有 

At 
TSA 


jc — z*| < 


j2® — 2), (2.30) 
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类 似 此 结论 的 收缩 映射 定理 的 证 明 可 参见 [6, 439]. 

有 时 也 称 不 动 点 迭代 法 为 泛 函 和 迭代. HER, Newton 法 和 正 割 法 都 是 不 动 点 选 
代 的 特殊 情况 . 
刻度 调整 

不 动 点 迭代 如 收敛 , 则 其 收敛 阶 数 依赖 于 和 ， 然 而 , 我 们 并 不 能 确保 其 收敛 . 
特别 地 ， 如 对 所 有 的 z e [a,b], |G'(z)| < 入 < 1, 则 Lipschitz 条 件 成 立 ， 如 果 
G(x) = g(x) + z, 则 上 一 条 件 相当 于 要 求 在 区 间 [a,b] (g(x) +1) <1. H g" E 
[a,b] 上 有 界 且 不 变 号 时 , 因为 对 某 个 a #0, ag'(z) = 0 当 且 仅 当 g'(z) = 0, 故我 们 
可 以 通过 选取 G(z) = ag'(z) +z 来 重新 调节 不 收敛 问题 . 为 保证 收敛 , 所 选取 的 a 
必须 满足 : 在 包含 初 值 的 一 个 区 间 上 , |ag”(z) + 1| < 1. 尽管 人 们 可 以 仔细 地 计算 
合适 的 a, 但 试 几 个 值 可 能 更 容易 . 如 果 对 于 选取 的 a, 此 算法 快速 收敛 , 则 此 值 就 
合适 . 

刻度 调整 仅 是 校准 G 的 若干 方法 中 的 一 种 .一般 地 , 不 动 点 迭代 的 有 效 性 强 
烈 地 依赖 G 的 形状 . 例如 考虑 求 g(xz) = x + loge 的 根 . 此 时 , 尽管 G(z) =e-* 收 
JURE. G(x) = -logs 一 点 也 不 收敛 , 但 G(x) = (x +e-*)/2 收敛 很 快 . 

例 2.3 (一 个 简单 的 单 变量 优化 , 续 ) 对 于 (2.2) 式 的 函数 g(z) = PHF, 图 2.6 
给 出 了 用 G(x) = g(z) +1 和 a = 4 的 刻度 调整 的 不 动 点 迭代 算法 的 前 几 步 . 注意 
到 , 用 其 根来 确定 下 一 步 zt 的 直线 是 相互 平行 的 , 且 其 斜率 等 于 —1/a. a 
有 时 也 称 此 方法 为 平行 蓄 法 (method of parallel chords). 


图 2.6 用 G(z) =g'(z)+z 和 a =4 求 取 例 2.3 中 函数 g(z) = PEE 最 大 值 的 刻度 调整 不 
动 点 迭代 算法 的 前 三 步 


假设 对 于 对 数 似 然 ! 是 二 次 的 或 在 6 附近 是 近似 二 次 的 情况 , 我 们 想 求 其 参 
数 的 MLE. 此 时 , 得 分 函数 局 部 线性 , 2 近似 为 一 个 常数 , 记 为 Y. 对 于 二 次 对 数 似 
然 , Newton 法 的 更 新 方程 为 gt+0 =o —1'(0)/7. 如 果 应 用 a = 一 1/7 的 刻度 调 
整 不 动 点 迭代 算法 , 则 其 更 新 方程 与 此 相同 . 由 于 多 数 对 数 似 然 都 是 近似 局 部 二 次 
的 , 所 以 刻度 调整 不 动 点 帮 代 算 法 可 能 是 非常 有 效 的 工具 , 且 此 方法 一 般 也 非常 稳 
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定 并 易于 编程 . 


2.2 多 元 问题 


在 一 个 多 元 优化 问题 中 , 假设 g Æ p HAE = = (z1,… ,zp)7 的 实 值 函 数 , 我 
们 要 求 其 最 值 . $ zt = (1P, 2) 为 第 t 步 最 优点 的 估计 . 

前 面 讨论 的 关于 单 变量 优化 问题 的 一 般 原 则 也 适应 于 多 元 情形 .算法 仍 为 兴 
KR, 且 多 数 算法 都 利用 基于 Taylor 级 数 或 正 割 近似 而 得 到 的 9 的 局 部 线性 来 计算 
迭代 结果 . 尽管 形式 上 有 些小 的 改变 , 但 收敛 准则 仍 是 类 似 的 . 为 构建 收敛 准则 , 令 
D(u,v) 为 两 个 p 维 向 量 问 的 距离 .两 个 显然 的 选择 为 P(uv) = È hu 一 wi| 和 


Du a) = 4] $ (us — vs)? 则 绝对 与 相对 收敛 准则 由 如 下 不 等 式 给 出 : 
Te 


D(ztt+D,zGb) D(zt+), z) 
EN T a i 
De®, |” De,0) +e 


2.2.1 Newton 法 和 Fisher 得 分 法 
为 适用 Newton 法 的 更 新 方程 , 我 们 用 二 次 Taylor 级 数 展开 近似 g(z*) 如 下 


D(ztt+b,ztb) <€, <e 


g(a") = g(x) + (a* 一 a()T g(a) + (a* — x) Tg (zz = x) /2, (2.31) 
并 且 通 过 求 取 此 二 次 函数 关于 z* AAD FPR. + (2.31) 式 的 右边 
的 梯度 等 于 0, 得 到 

ge) +9"(@)(@* — 2) =0. (2.32) 
由 此 得 到 更 新 方程 
g+!) = gt) — g" (x) 1g (a), (2.33) 
另外 , 注意 到 (2.32) 式 左 端 实际 上 是 g'(z*) 的 线性 Taylor 级 数 近似 , 且 求解 (2.32) 
就 相当 于 求 此 线性 方程 的 根 . 无 论 从 哪个 角度 看 ， 多 元 Newton 和 迭代 的 增 量 都 为 
nO = —g"(z())-1g'(z(®)). 
同 单 变量 情形 一 样 , 在 MLE 问题 中 , 我 们 可 以 用 在 0O 点 的 期 望 Fisher 信息 
量 10) 替代 在 点 0O 处 的 观测 的 信息 量 , 则 此 时 多 元 Fisher 得 分 法 的 更 新 方程 
为 
at) = of + r(0®) -W (0®), (2.34) 
此 方法 渐 近 等 价 于 Newton 法 . 
例 2.4 (一 个 二 元 优化 ) 2.7 给 出 了 Newton 法 在 一 个 复杂 二 元 函数 上 的 
应 用 . 此 函数 曲面 由 阴影 及 等 高 线 给 出 , 其 中 越 淡 的 部 分 函数 值 越 大 . 此 算法 始 于 
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PTA, 22. Ko? 出 发 ,此 算法 很 快 收敛 到 真正 的 最 大 值 , 且 注 
意 到 尽管 其 每 步 都 是 沿 着 上 坡 方向 行进 的 , 但 某 些 步 长 并 不 理想 . 虽然 zfo) 很 接近 
z4, 但 从 它 出 发 , 此 算法 无 法 算得 函数 的 最 大 值 , 而 仅 收敛 到 一 个 局 部 最 小 值 . 其 
原因 为 : 其 某 步 步 长 太 大 以 致 于 完全 越过 了 上 山 的 山 疹 部 分 , 从 而 导致 它 向 下 坡 方 
向 行进 . 在 最 后 几 步 , 算法 走 下 坡 的 原因 为 : 它 已 经 把 g' 的 一 个 错 根 磨 平 了 . 我 们 
将 在 2.2.2 节 讨 论 预防 出 现 这 种 问题 的 方法 . 口 


图 2.7 应 用 Newton 法 求 取 例 2.4 讨论 的 复杂 二 元 函数 的 最 大 值 . 此 函数 曲面 由 阴影 及 等 高 
线 给 出 , 其 中 越 淡 的 部 分 函数 值 越 大 . 此 算法 采用 两 个 初 值 , z8,z40, 且 其 分 别 收敛 
到 真正 的 最 大 值 和 局 部 最 小 值 


RRA BRIAR 

逻辑 斯 蒂 回 归 模 型 是 一 著名 的 广义 线性 模型 ([379]), 现 考虑 其 参数 的 MLE. 在 
广义 线性 模型 中 , 响应 变量 Y 独立 地 来 自 某 参数 为 0; 的 分 布 (i = 1,2,… ,n). 虽 
然 不 同类 型 的 响应 用 不 同 的 分 布 来 拟 合 , 但 其 分 布 均 属 于 某 指数 分 布 族 . 此 分 布 族 
的 形式 为 f(y|9) = exp{[y6 一 b(9)]/a(9$)+c(y,9)}, 其 中 6 为 自然 或 典 则 参数 , A oH 
散 度 参数 . 此 分 布 族 的 两 个 最 有 用 的 性 质 为 : E{Y} = 5(9) 和 var{Y} = b”(9)a($) 
( 见 1.3 节 ). 

用 来 模拟 Y 的 分 布依 赖 于 一 组 对 应 的 观测 协 变量 z. 特别 地 ， 我们 假设 
E{Yi|z:} 由 方程 g(E{Yi|zi}) = ziB 与 z; ARK, 其 中 B 为 参数 向 量 , 且 称 g 
为 连接 函数 . 

用 于 多 辑 斯 蒂 回 归 的 广义 线性 模型 ,是 由 属于 指数 分 布 族 的 Bernoulli 分 布 而 
得 到 的 . 此 时 响应 的 分 布 为 Yilzi ~ Blr), i = 1,2,… n, 且 相 互 独立 . 假设 观测 
数据 包括 一 个 协 变量 值 z; 和 一 个 响应 值 yi,i = 1,2,… ,n, 令 列 向 量 zi = (1, zi)T， 
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B = (bo, 81), 则 对 于 第 ;个 观测 , 自然 参数 为 9; = log{m/(1—m)}, alé) = 1,8(0i) = 
log{1 + exp{6,}} = log{1 +exp{z7B}} = 一 log{1 — 7;}, 其 对 数 似 然 为 


(B) = y?ZB—b"1, (2.35) 


其 中 1 是 分 量 均 为 1 的 列 向 量 , y = (wi,… syn)", b = O0), bOn), Z 是 
nx 2 矩阵 , 其 第 i 行为 zT. 
现 考虑 利用 Newton 法 求 最 大 化 此 似 然 的 B, 此 时 的 得 分 函数 为 


U(B) = ZT(y - 7), (2.36) 
其 中 n 为 由 Bernoulli 概率 ri,… ,rn 构成 的 列 向 量 . 其 Hessian 矩阵 为 


T 
(B) = ga -x))=- (3) Z=-Z'WZ, (2.37) 
其 中 W 为 第 i 个 对 角 元 等 于 mi(1 r) 的 对 角 阵 . 
于 是 , Newton 法 的 更 新 方程 为 


BOY =p — (A) (B®) (2.38) 
=p 4 (2?wz) * (2% = 7) ， (2.39) 


其 中 rO 为 对 应 于 BO 的 的 值 , WO 为 在 oO 处 取 值 的 对 角 权 重 阵 ， 

注意 到 Hessian 阵 不 依赖 于 y， 于 是 ，Fisher 信息 阵 等 于 观测 的 信息 量 ， 即 
I(B) = E{-l"(8)} = E{ZTW Z} = l" (B). 因此 , 对 于 本 例 , Fisher 得 分 法 等 同 于 
Newton 法 . 对 于 广义 线性 模型 , 当 连 接 函 数 使 得 自然 参数 为 协 变量 的 线性 函数 时 ， 
此 结论 始终 正确 . 

例 2.5 (人 类 脸谱 识别 ) 我 们 将 用 逻辑 斯 蒂 模型 来 拟 合 一 组 数据 , 而 这 些 数据 
涉及 到 一 个 识别 人 类 脸谱 算法 的 检验 . 现 用 1 072 个 人 的 一 对 脸 部 图 像 来 训练 和 检 
验 一 个 脸 部 自动 识别 算法 ( 见 [580]). 此 试验 利用 识别 软件 对 每 一 个 人 的 第 一 个 图 
像 ( 称 为 一 个 探 针 ) 在 剩余 的 2 143 个 图 像 中 寻找 匹配 者 . 理想 的 匹配 结果 就 是 找 
到 同一 个 人 的 另 一 个 图 像 ( 称 为 目标 ). 以 响应 y; = 1 表示 匹配 成 功 , 而 响应 yi = 0 
则 表示 与 其 他 和 匹配。 所 用 的 预测 变量 为 探 针 图 像 与 其 对 应 的 目标 图 像 在 眼 部 标 
准 区 域 的 平均 像素 强度 的 绝对 差 .此 变量 用 来 度量 两 个 图 像 在 眼 部 附近 这 一 重要 
区 域 是 否 具有 类 似 的 特征 . 若 眼 部 像素 强度 有 很 大 不 同 就 意味 着 不 匹配 . 对 于 上 述 
数据 , 共有 正确 匹配 775 次 , 297 次 匹配 错误 . 在 正确 匹配 中 , 预测 变量 的 中 位 数 和 
90% 分 位 数 分 别 为 0.033 和 0.097, 而 在 错误 匹配 中 , 分 别 是 0.060 和 0.161. FÆ, 
数据 支持 我 们 利用 眼 部 像素 强度 来 判别 匹配 与 否 的 假设 ， 上 述 数据 可 在 本 书 主页 
上 找到 . 所 涉及 到 的 数据 分 析 见 [220, 221]. 
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为 量化 上 述 变量 间 的 关系 , 我 们 将 拟 合 一 个 逻辑 斯 带 回归 模型 . 于 是 , 记 z 为 
一 对 图 像 眼 部 强度 的 绝对 差 , 且 vy; 表示 第 i 个 探 针 匹配 是 否 成 功 (i = 1,--- ,1 072). 
似 然 函数 如 (2.35) R. 下 面 我 们 将 利用 Newton 法 . 

我 们 取 初 值 6(0) = (B84), 64%)T = (0.959 13,0)T, 这 意味 着 在 0 REAR, 对 于 所 
有 的 i, mi = 775/1072. X 2.1 指出 此 算法 很 快 收敛 到 BO = (1.738 74, 一 13.588 40)7. 
如 采用 对 应 于 x; = 0.5,i = 1,… ,1 072 的 初 值 BO = 0, 则 此 算法 仍 很 快 收敛 . 而 
当 用 Bernoulli 数据 拟 合 逻 辑 斯 蒂 回 归 时 |， HAR, Senne 种 初 值 ( 见 [278]). Bl 
为 Êi = -13.59 接近 负 9 倍 的 边际 标准 差 , 故 数据 强烈 支持 把 眼 部 像素 区 别 作 为 判 
断 识别 与 否 的 假设 . a 


表 2.1 用 逻辑 斯 蒂 回 归 模 型 拟 合 例 2.5 中 的 脸 部 识别 数据 时 , Newton 法 每 步 迭代 的 参数 
估计 和 相应 的 方差 - 协 方差 阵 估计 


TPAR Bo Ezam 
0 ( 0.959 13 ) ( 0.01067 —0.114 12 ) 
0.000 00 —0.114 12 2.167 01 
i ( 1.706 94 ) ( 0.13312 -0.140 10 ) 
一 14.200 59 —0.140 10 2.363 67 
3 ( 1.737 25 ) ( 0.01347 —0.139 41 ) 
一 13.569 88 一 0.139 41 2.320 90 
š ( 1.738 74 ) ( 0.01349 —0.139 52 ) 
一 13.588 39 一 0.139 52 2.322 41 
1.738 74 0.013 49 一 0.139 52 


一 13.588 40 一 0.139 52 


2.322 41 


出 于 多 种 原因 考虑 , 利用 Fisher 得 分 法 来 求 广义 线性 模型 的 极 大 似 然 估 计 是 
非常 重要 的 . 首先 , CERERA ihk (IRLS) 方 法 的 应 用 . 令 


ed =y— x, (2.40) 
和 
2 = Za + (WO), (2.41) 
则 Fisher 得 分 法 的 更 新 方程 可 以 写成 
Bt) = BO 4 (z?wz) * ZTeG) 
= (zrwo2z) [2" wz + Zw (Wye 


-1 
= (z"w®z) Zwoz, (2.42) 


从 (2.42) 可 以 看 出 , 由 于 BY 是 rO 关于 Z 的 加 权 最 小 二 乘 的 回归 系数 , 且 其 
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权重 为 W 的 对 角 元 , 故我 们 称 cO 为 工作 响应 . ESTER, 都 要 重新 计算 
一 个 新 的 工作 响应 和 权 向 量 , 且 更 新 方程 可 由 一 个 加 权 最 小 二 乘 拟 合 得 到 . 

其 次 ， 对 于 广义 线性 模型 ，IRLS 是 下 面 讨论 的 处 理 非 线性 最 小 二 乘 问题 的 
Gauss-Newton 法 的 一 种 特殊 情况 , 因此 , IRLS 具有 与 Gauss-Newton 法 一 样 的 特 
征 . 特别 地 , 除非 此 方法 拟 合 得 非常 好 , 则 它 可 能 是 一 种 速度 较 慢 且 不 可 靠 的 用 来 
拟 合 广义 线性 模型 的 方法 ( 见 [534]). 

2.2.2 类 Newton 法 
某 些 高 效率 的 方法 都 依赖 如 下 形式 的 更 新 方程 
att) = 2 —(MM)“19'(2), (2.43) 


其 中 MO 是 一 个 用 来 近似 Hessian BE g(a) 的 px p 矩阵， 在 一 般 的 优化 问 
题 中 , 用 某 个 简单 近似 替代 Hessian 阵 有 内 方面 的 好 处 . 第 一 , 计算 Hessian 阵 可 
能 是 非常 昂贵 的 . 第 二 , Newton 法 的 每 步 迭 代 并 不 总 需要 上 坡 , 即 在 每 一 步 迭 代 ， 
它 并 不 保证 g(a) > g(a). THEM MO 则 可 保证 爬 高 . 我们 已 经 知道 
Hessian 阵 的 一 个 可 能 替代 为 MO = -7(9 中 ), 这 即 是 Fisher 得 分 法 . 选取 某 些 其 
他 的 MO 可 有 好 的 表现 , 也 可 限制 其 计算 量 . 
1， 上 升 算法 

为 迫使 每 步 均 上 坡 , 人 们 可 以 利用 把 高 算法 (将 在 第 3 章 讨 论 其 他 类 型 的 朴 高 
算法 )， 本 节 通 过 用 MO = -I 替代 Hessian 阵 来 得 到 一 种 最 速 上 升 法 , 其 中 I 
为 单位 阵 ， 因 为 9 的 梯度 指出 了 9 的 曲面 在 点 z 处 的 最 陡峭 上 坡 方向 , 故 令 
alt) = gH) + g'(x) 就 意味 着 下 一 步 将 沿 着 最 陡峭 息 高 方向 行进 . 如 在 后 面 所 
讨论 的 , 为 了 控制 收敛 性 , 调整 步 长 为 rD = cl +alg' (H) 是 有 益 的 , 其 中 
al) > 0. 

不 同形 式 的 MO 将 产生 增 量 为 


-1 
h® = -ago [MO] ge) (2.44) 


的 多 种 上 升 算法 . 对 于 固定 的 z 和 非 负 定 的 MO, ERB al) 一 0 时 , 我 们 
有 


et) ~ g(a) =9(2 +h) — g(a) 
=-alg'(e)"(MO)*g'(a) + ofa), (2.45) 
其 中 第 二 个 等 式 来 自 Taylor 展开 g(a +h) = g(x) + g'(e2) TH + ofa"). 
于 是 , 如 果 -MG 是 正定 的 , 则 当选 取 充分 小 的 al) 时 , 可 以 保证 算法 在 上 升 , 这 
是 因为 当 a) 一 0 时 , o(a@)/atb 一 0, 而 由 (2.45) RA g(ztt+D) — g(a) > 0. 
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这 样 , 一 个 典型 的 上 升 算法 将 用 一 个 正定 阵 -MO 来 近似 负 的 Hessian BE, 并 
包括 一 个 收缩 或 步 长 参数 a( > 0, 其 中 此 参数 将 保证 每 步 均 上 升 . 例如 , 如 果 取 
ab = 1 的 运算 结果 显示 走 下 坡 路 , 则 可 取 一 半 的 a@， 称 此 方法 为 例 向 追踪 法 . 
如 果 此 步 仍 然 走 下 坡 , 则 再 取 一 半 的 aO 直到 某 充 分 小 的 步 长 以 保证 上 升 . 对 于 
Fisher 得 分 法 , 由 于 -MG = 1(6) 是 半 正 定 的 , WSH Fisher 得 分 法 将 避免 走 
下 坡 路 . 

例 2.6 (一 个 二 元 优化 , 续 ) 图 2.8 给 出 了 利用 最 速 上 升 法 求 取 例 2.4 中 讨论 
过 的 二 元 函数 最 大 值 的 图 例 , 其 初 值 为 z) 且 每 步 均 取 at) = 1/4. 图 中 实 线 表示 
此 最 速 上 升 算法 的 路 线 . 尽管 成 功 求 得 最 大 值 , 但 其 速度 并 不 快 且 效 率 不 高 . g 
虚线 表示 2.2.2 WH 3 部 分 所 讨论 的 另 一 种 方法 . 


图 2.8 “应 用 两 种 方法 求 某 复 杂 二 元 函数 的 最 大 值 . 此 函数 曲面 由 阴影 及 等 高 线 给 出 , 其 中 越 
淡 的 部 分 函数 值 越 大 . 两 种 算法 均 采用 初 值 sO 求 其 真正 的 最 大 值 2*. 实 线 对 应 着 
例 2.6 讨论 的 最 速 上 升 法 , 虚线 对 应 着 BFGS 更 新 的 拟 Newton 法 ( 见 例 2.7). 两 种 
算法 均 为 倒 向 追踪 , 且 其 最 初 几 步 的 ao 分 别 为 0.25 和 0.05 


步 长 取 半 法 仅 是 倒 向 追踪 法 中 的 一 种 . 在 所 有 方法 中 , 称 那些 依赖 于 在 选 定 方 
向 上 寻找 有 利 步 长 的 方法 为 线 搜索 法 . 然而 , 甚至 当 9 有 上 界 和 唯一 的 最 大 值 时 ， 
用 一 个 正定 阵 替 换 负 的 Hessian 阵 的 倒 向 追踪 也 不 一 定 确保 算法 收敛 ， 要 保证 收 
敛 就 必须 要 求 每 步 都 上 升 ( 即 要 求 当 t 增加 时 , oe) — ge) 的 减 小 不 要 太 
快 ) 且 每 步 的 方向 都 不 要 接近 垂直 于 梯度 ( 即 避 免 来 自 于 9 的 同一 水 平等 高 线 ). 如 
Goldstein-Armijo 和 Wolfe-Powell 条 件 就 满足 上 述 要 求 , 且 这 些 条 件 能 保证 上 升 算 
法 的 收敛 性 ([13, 239, 435, 570]). 

当前 进 方向 并 不 是 上 坡 时 , 如 大 家 都 知道 的 修正 的 Newton 法 等 方法 将 充分 
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改变 前 进 方向 以 致 找到 上 坡 方向 ((217]). Cholesky 分 解法 也 是 一 种 很 有 效 的 方法 
([216]), 实际 上 ， 当 负 Hessian 阵 非 正定 时 , 此 方法 用 -9g”(z 人 0) = g" (a) + E 
KREWE, 其 中 五 为 对 角 元 非 负 的 对 角 阵 .通过 适当 选取 E 而 不 必 偏 离 原 方向 
—9" (x) 以 保证 9" (©) 为 正定 的 , 从 而 得 到 上 坡 的 合适 方向 . 
2， 离 散 Newton 法 和 不 动 点 法 

为 避免 计算 Hessian BE, 人 们 可 能 转 而 应 用 类 似 于 正 割 法 的 离散 Newton 法 或 
仅 依赖 于 初始 近似 的 多 元 不 动 点 法 . 

多 元 不 动 点 法 在 迭代 过 程 中 都 应 用 g” 的 初始 近似 . 如 果 此 近似 是 一 个 常数 矩 
阵 , 即 对 于 所 有 的 t, M® = M, 则 其 更 新 方程 为 


att) = 2 一 MT-1g'(zGb)， (2.46) 


而 g"(a) 是 M 的 一 个 合理 选择 . 注意 到 , 如 果 M 是 对 角 阵 , 则 此 方法 就 相当 于 
对 g 的 每 个 分 量 分 别 应 用 单 变量 刻度 调整 的 不 动 点 算法 . 当 求 取 类 似 于 对 数 似 然 
这 样 的 局 部 二 次 函数 的 最 大 值 时 , 不 动 点 迭代 和 Newton 法 间 的 关系 请 见 2.1.4 节 . 
多 元 离散 Newton 法 用 一 个 有 限 差分 商 的 矩阵 MO 近似 g(a). 令 g'(z) 
的 第 i 个 元 素 为 g(x) = dg(z)/dzi, 以 e; 记 第 j 个 分 量 为 1 而 其 他 分 量 均 为 0 的 
p 维 向 量 . 在 所 有 的 用 离散 差分 近似 Hessian 阵 的 第 (i,j) 元 素 的 方法 中 , 一 个 最 直 
接 的 方法 可 能 是 : 令 M 的 第 (i,j) 元 等 于 
ge + Ries) - gile) 
其 中 AD 为 常数 . 对 于 所 有 的 (i,j) A t, 取 AW =h 最 容易 , 但 其 收敛 阶 数 6 = 1. 
另外 , 如 果 我 们 对 于 所 有 的 i, W ao = «9 一 区, 则 得 到 的 收敛 阶 数 类 似 于 单 变 
量 的 正 割 法 , 其 中 al) Aa 的 第 ; 个 分 量 . 在 用 (2.43) 式 给 出 的 更 新 方程 时 , 我 
们 可 以 利用 MO 和 它 的 转 置 阵 的 平均 以 保证 其 对 称 性 . 
3. 4% Newton 法 


从 计算 上 来 看 , 用 MG 近似 Hessian 阵 的 离散 Newton 法 在 计算 上 比较 麻烦 ， 
这 是 因为 在 每 一 步 , 更 新 MO 的 每 个 元 素 都 要 计算 一 个 新 的 离散 差分 . 基于 最 近 
一 步 的 方向 , 我 们 可 以 设计 一 种 更 有 效 的 方法 . 当 z@ Hct) = 2 +A) 更 新 
时 , 我 们 就 有 机 会 去 认识 g' 在 zt 附近 沿 hO 方向 上 的 曲率 , FE, 基于 这 些 信息 
就 可 以 更 有 效 地 更 新 MO. 

为 此 , 我 们 必须 放弃 在 离散 Newton 法 中 应 用 的 用 离散 差分 逐个 近似 g" 每 个 
分 量 的 方法 . 然而 , 也 可 能 保留 某 一 类 型 的 基于 差分 的 正 割 条 件 . 特别 地 , 如 果 


g'(zt+D) — g/(2@) = MED (g+) 二 a), (2.48) 


MiP = (2.47) 
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WMO 满足 正 割 条 件 . 由 此 条 件 可 以 看 出 , 我 们 需要 一 种 计算 量 不 大 且 满 足 (2.48) 
式 的 由 MO 生成 MHD 的 方法 , 它 将 保证 我 们 得 到 更 多 的 关于 g' 在 最 近 一 步 
方向 上 曲率 的 信息 . 由 此 即 产生 了 拟 Newton 法 , 有 时 也 称 其 为 变 尺 度 法 (variable 
metric)( 见 [133, 217, 415]). 

现存 在 唯一 一 种 对 称 且 秩 为 1 的 方法 满足 这 些 要 求 ([115]). 记 2) = alt) 一 
zy = g' (£+) — g(a), 则 关于 MO 的 更 新 方程 为 


MEY = MO 4 yO (oo) ， (2.49) 


t 1 
其 中 bo = yO) — MOO, = CORA 


监测 MO 的 更 新 方程 的 变化 非常 重要 . 如 果 O 的 分 母 为 零 或 接近 零 , WE 
很 难 可 靠 地 计算 . 此 时 我 们 在 此 步 迭 代 中 临时 取 a) = MO, 我 们 也 希望 通过 
倒 向 追踪 来 保证 其 上 升 . 如 果 -MO 正定 且 c <0, 则 —M Ot) 也 将 正定 . 如 果 
确保 正定 性 能 从 当前 迭代 传 到 下 次 迭代 , 则 我 们 用 术语 遗传 正定 性 来 表示 这 种 渴望 
的 情形 . 如 果 cO > 0, 则 可 能 需要 通过 缩短 cO, 将 其 向 0 靠近 直至 正定 条 件 满足 . 
于 是 , 针对 此 更 新 的 正定 就 不 是 遗传 正定 . 监测 技术 、 倒 向 追踪 技术 和 方法 的 表现 
请 参见 [327, 349]. 

现 有 多 种 对 称 的 秩 为 2 的 用 以 更 新 Hessian 阵 近 似 的 方法 , BEM ALES 
条 件 . 秩 为 2 的 用 以 更 新 Hessian 阵 近 似 的 Broyden 族 ([71, 73]) 具有 如 下 形式 : 


Mz (Mozo) y) wO) 
(z0) M920 (20) yo 
+6 (20T MO z0) a (ao) ， (2.50) 


Me+D = MG — 


其 中 
qu ay MO) 
(2®)Ty® (2®)TMO zit) 
464 = 0 时 , 这 就 是 此 族 中 最 有 名 的 BFGS 更 新 ([72, 172, 238, 500]). 另 一 个 取 
SO = 1 的 更 新 也 得 到 了 广泛 的 研究 ([115, 174). 然而 , 大 量 经 验 与 理论 研究 表明 ， 
BFGS 更 新 一 般 优 于 后 一 个 . 现 已 证 明 , (2.49) 式 的 秩 为 1 的 更 新 表现 也 不 错 , 且 较 
BFGS 具有 一 定 的 吸引 力 ([102, 327]). 
BFGS 更 新 (实际 上 , Broyden 族 中 的 每 一 个 ) 都 能 保证 -MO 具有 遗传 正定 
性 . 因此 , 倒 向 追踪 能 保证 步 步 上 升 . 然而 , 注意 到 保证 上 升 性 并 不 等 价 于 保证 收 
& 一 般 地 , 拟 Newton 法 的 收敛 阶 数 比 线性 高 , 但 比 二 次 低 . 相对 于 Newton 法 而 
言 , 其 收敛 阶 数 低 于 二 次 的 原因 是 对 Hessian 阵 的 近似 . 不 过 , W Newton 法 仍 是 快 
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HAAR, 而 且 经 常 被 用 到 多 个 流行 的 软件 包 中 .另外 , 多 个 作者 也 提出 (2.49) 
式 的 表现 优 于 BFGS([102, 349]). 

例 2.7 (一 个 二 元 优化 问题 , 续 ) 图 2.8 给 出 了 求 在 例 2.4 中 引出 的 二 元 函数 
最 大 值 的 拟 Newton 法 的 应 用 , 其 中 更 新 分 别 为 BFGS 和 倒 向 追踪 , 初 值 为 zto) H 
a® = 0.05. 虚线 为 本 例 中 的 迭代 步骤 , 其 最 优点 z* 很 快 被 找到 , 而 图 中 的 实 线 为 
在 2.2.2 节 第 1 部 分 讨论 的 最 速 上 升 法 . 拟 Newton 法 和 最 速 上 升 法 都 仅 要 求 一 阶 
WS, 且 二 者 均 应 用 倒 向 追踪 .从 本 例 可 以 看 出 , 拟 Newton die 
量 几乎 总 是 超过 其 良好 的 收敛 表现 . 

关于 如 何 提高 拟 Newton 法 的 稳定 性 和 表现 已 有 多 种 研究 方法 . i 
的 重要 内 容 也 许 就 在 于 计算 MO 的 更 新 . 尽管 (2.50) 式 给 出 了 相对 直观 的 更 新 方 
程 , 但 它 的 直接 应 用 在 数值 计算 上 的 稳定 性 却 不 如 别 的 , 另外 , 它 在 [215] 中 所 给 出 
的 关于 更 新 MÀ 的 Cholesky 分 解 也 是 很 好 的 . 

拟 Newton 法 的 表现 对 初始 矩阵 MO 的 选取 非常 敏感 .一 个 最 容易 的 选择 
就 是 负 的 单位 阵 , 但 当 rO 各 分 量 的 尺度 差异 很 大 时 , 这 种 选择 经 常 不 充分 , 对 于 
MLE 问题 , 如 果 期 望 的 Fisher 信息 量 可 以 计算 , 则 取 MO = —71(0) 是 一 个 很 好 
的 选择 . 在 一 般 情况 下 , 对 于 拟 Newton 法 , 重新 调整 = 各 元 素 的 刻度 使 其 具有 可 比 
性 是 非常 重要 的 . 这 种 调整 将 改进 其 表现 并 有 效 预防 其 停止 准则 仅 依赖 于 那些 刻 
度 大 的 变量 . 通常 , 在 刻度 调整 不 好 的 多 数 问题 中 , 人 们 可 能 会 发 现 对 于 拟 Newton 
算法 的 收敛 点 , 其 中 仅 有 部 分 分 量 z 与 其 相应 的 初 值 有 别 , 而 其 余 分 量 均 不 变 . 

在 MLE 和 统计 推断 中 , 由 于 Hessian 阵 给 出 了 标准 误差 和 协 方差 的 估计 , WE 
非常 重要 . 然而 , 拟 Newton 法 依赖 于 如 下 假设 : 即使 用 一 个 很 差 的 关于 Hessian 阵 
的 近似 , 求 根 问题 仍 可 以 有 效 地 解决 . 另外 , 如 果 和 迭代 在 上 步 停止 , 则 最 近 的 Hessian 
近似 MED 已 经 作废 且 错 误 定 位 于 0 而 不 位 于 0O. 出 于 上 述 原因 ， 上述 近 
似 可 能 相当 差 . 因此 , 当 迭 代 停止 后 , 计算 一 个 更 精确 的 近似 是 值得 的 . 其 细节 请 
参见 [133]. 另 一 种 方法 则 依赖 于 中 心 差分 近似 , 其 (i, 7) HHA 
(OO + hijej) — Ņ(0® — hie) 

hij ， 
其 中 LOO) 为 得 分 函数 在 0O 点 处 值 的 第 i 个 分 量 . 此 时 , 减少 hy 会 减少 离散 
化 误差 , 但 可 能 增加 计算 机 四 含 五 入 的 误差 . 赁 经 验 而 论 , 在 上 述 情形 中 对 于 所 有 
AY ij, 可取 hi; = h = <13, 其 中 < 表示 计算 机 的 浮 点 精度 ( 见 [452]). 
2.2.3 Gauss-Newton 法 


在 求 MLE 的 问题 中 , 我 们 已 经 指出 Newton 法 如 何 二 次 近似 在 9 点 的 对 数 
似 然 函数 ， Oe ae nd geel 另 一 个 在 非 线 性 最 小 二 
乘 中 用 到 的 方法 为 : 通过 最 大 化 目标 函数 g0 -Su 一 f(zi,9))? 来 估计 9, 其 


oÙ) = 


(2.51) 
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中 (wi, zi), i = 1,… ,n 为 观测 数据 ,人们 可 以 巧妙 地 应 用 这 样 的 目标 函数 来 解决 
实际 问题 . 例如 , 对 于 某 个 非 线性 函数 f 和 随机 误差 6;, 我 们 可 以 估计 9 以 拟 合 模 
型 
Y; = f(zi,0) + éi. (2.52) 
Gauss-Newton 法 不 去 近似 g, 而 是 用 f 在 点 OO 的 线性 Taylor 展开 近似 f 本 
身 . 由 此 线性 近似 替换 f 就 成 了 一 个 线性 最 小 二 乘 问题 , 而 解 此 问题 就 得 到 一 个 更 
新 ott), 
特别 地 , 非 线 性 模型 (2.52) 可 被 近似 为 
Y, = f(z 0®) + (0 — 0) f'(x5,0) + ei = F(zi,0, 0) + ei (2.53) 
其 中 f'(a 0®) 为 f(z 0O) 关于 OO, = 1,… ,p, 在 (zi) 处 的 偏 导 列 向 量 , 
由 9(0) =~ È [vi Fle.8,0)] 关于 9 的 最 大 值得 到 Gauss Newton 法 的 迭代 
i=l 
4H, 而 Newton 法 的 迭代 值 则 由 最 大 化 9 本 身 的 二 次 近似 得 到 , 即 由 g0) + (9 一 
a) Tg'(@) +(0- A Tg" (OO = a) 得 到 . 
以 XO WRA rP = yi — f(2:,0) 的 工作 响应 , BEX al) = f(zi,0), 
则 近似 问题 可 被 描述 成 最 小 化 下 面 线性 回归 模型 
x = AM@-0) +e, (2.54) 
的 平方 残 差 , 其 中 XO, e 分 别 是 第 i DIMI XO a 的 列 向 量 . 类 似 地 ,A 中 是 
第 i 行为 (a)T 的 矩阵 . 
当 
(8 一 a) é (ata) (AMT 2 (2.55) 
时 , 拟 合 (2.54) 式 的 均 方 误差 达到 最 小 . 于 是 , 关于 0 的 Gauss-Newton 法 的 更 
新 为 
Btd+D gl 4 (aT) (AM)P2®, (2.56) 
相对 于 Newton 法 ，Gauss-Newton 法 的 潜在 优点 在 于 它 不 需要 计算 Hessian 
Be. 当 /三 接 近 线 性 或 模型 拟 合 较 好 时 ，Guass-Newton 法 的 收敛 速度 很 快 . 但 在 其 
他 一 些 情况 , 特别 是 由 于 模型 拟 合 不 好 而 当 残 差 很 大 时 , 此 方法 收敛 可 能 很 惕 或 根 
本 就 不 收敛 (即使 初 值 很 好 ). 对 于 这 些 情 况 , 现 有 多 种 改进 的 具有 良好 收敛 性 质 的 
Gauss-Newton 法 ([132]). 
2.2.4” 非 线性 Gauss-Seidel 迭代 和 其 他 方法 


在 拟 合 非 线 性 统计 模型 (包括 第 12 章 的 模型 ) 时 , 非 线性 Gauss-Seidel 迭代 是 
经 常 应 用 的 一 种 重要 方法 , 也 称 此 方法 为 后 退 拟 合 (backfitting) 法 或 循环 坐标 上 升 


法 (cyclic coordinate ascent). 
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方程 g'(z) = 0 是 一 个 含有 p 个 未 知 变量 的 非 线性 方程 组 . 对 于 j = 1,… ,p， 
Gauss-Seidel 迭代 每 次 均 把 g 的 第 j 个 分 量 看 成 为 zi 的 单元 实 函数 . 应 用 任 一 方 
便 的 单元 优化 方法 求解 一 维 方程 g(zf 5) = 0 的 根 . 所 有 p 个 分 量 都 相继 循环 得 
到 , 而 在 每 步 循环 中 都 将 得 到 每 个 坐标 的 最 新 值 , 故 每 步 循环 之 后 , 所 有 最 新 值 就 
构成 了 (t+1) 

此 方法 的 优点 在 于 它 能 简化 很 难 的 问题 . 因为 单元 算法 较 多 元 算法 更 稳定 可 
M, 故 通 过 应 用 Gauss-Seidel 迭代 建立 的 单元 求 根 问题 的 解 一 般 易 于 自动 化 处 理 . 
再 者 ， 由 于 单元 优化 任务 易于 完成 , 故 其 总 的 计算 量 可 能 小 于 多 元 方法 所 要 求 的 . 
总 之 , 此 方法 的 优点 意味 着 它 非常 易于 编程 . 

例 2.8 (一 个 二 元 优化 问题 , 续 ) 图 2.9 给 出 了 利用 Gauss-Seidel 迭代 求 例 2.4 
中 讨论 过 的 二 元 函数 最 大 值 的 步骤 . 不 像 本 章 的 其 他 图 , 本 图 中 的 每 一 条 线段 均 表 
示 当 前 解 一 个 坐标 的 改变 . 例如 , c 即 为 从 sO 经 一 步 水 平和 垂直 移动 后 的 顶点 . 
一 个 完整 欠 代 包括 两 个 单 变量 迭代 . 对 于 每 个 单 变量 优化 , 我 们 应 用 拟 Newton 法 . 
注意 到 , 从 单 变量 优化 的 角度 看 , 从 cO 向 左 走 的 第 一 个 水 平 迭 代 是 失败 的 , 由 于 
它 没有 找到 此 变量 的 整体 最 大 值 , 而 仅 找到 了 此 变量 的 局 部 最 小 值 . 尽管 这 并 不 是 
我 们 所 希望 的 , 但 经 过 系列 的 Gauss-Seidel 迭代 后 , 仍 能 克服 此 不 足 , 并 能 求 得 整 
体 多 元 最 大 值 . a 


图 2.9 应 用 Gauss-Seidel RREH 2.4 讨论 过 的 某 复杂 二 元 函数 的 最 大 值 . 此 函数 曲面 由 
阴影 及 等 高 线 给 出 . 从 初 值 oO 出 发 , 几 步 后 就 趋 于 真 值 2*. 每 一 线段 都 表示 当前 
解 的 一 个 坐标 的 改变 , 于 是 从 oo 到 zt+30 的 完整 迭代 就 由 一 对 相 邻 的 线段 构成 


多 元 连续 函数 的 优化 是 一 个 广阔 的 研究 领域 . 本 章 其 他 地 方 给 出 的 参考 文献 包 
会 了 多 种 这 里 没有 讲 到 的 方法 . 信任 区 域 (trust region) 方法 约束 方向 与 步 长 ; 非 线 
HE 34 $6. JŽ (nonlinear conjugate gradient) 法 所 选取 的 方向 将 偏离 梯度 而 朝向 以 前 
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没有 用 过 的 方向 . 由 于 多 面体 (polytope) 或 Nelder-Mead 单纯 形 法 ([411, 552]) 并 不 


需要 求 目标 函数 9 的 导数 , 故 它 非常 流行 . 此 方法 包含 一 系列 对 应 目标 函数 值 的 固 


定 长 度 的 点 , 用 来 将 看 来 很 有 希望 的 方向 上 所 选 的 点 替换 每 步 迭 代 中 最 不 好 的 点 . 


2.1 


2.2 


2.3 


问 题 


下 面 数据 为 来 自 Cauchy(6, 1) 的 独立 同 分 布 样本 : 1.77, 一 0.23, 2.76, 3.80, 3.47, 56.75, 

一 1.34, 4.24, —2.44, 3.29, 3.71, ~2.40, 4.53, —0.07, 一 1.05, 一 13.87, —2.53, —1.75, 0.27, 

43.21. 

(a) 画 出 对 数 似 然 函 数 曲 线 . 当初 值 为 : 11, -1, 0, 1.5, 4, 4.7, 7, 8 和 38 时 , 应 用 
Newton-Raphson 方法 求 9 的 MLE, 讨论 你 得 到 的 结果 , 并 回答 : 这 些 数据 的 均值 
是 一 个 好 的 初 值 吗 ? 

(b) 应 用 初 值 为 -1 和 1 的 二 分 法 , 并 通过 附加 运算 说 明 二 分 法 何 时 可 能 无 法 求 得 整体 
最 大 值 . 

(c) 应 用 初 值 为 -1, a = 1,0.64,0.25 的 (2.29) 式 给 出 的 不 动 点 法 , 并 研究 其 他 初 值 和 
刻度 因子 的 选取 . 

(d) 应 用 初 值 为 (99,0) = (—2,-1) 的 正 割 法 来 估计 9， 当 采用 初 值 (0,0) = 
(一 3, 3) 或 其 他 值 时 , 情况 如 何 ? 

(e) 通过 本 例 比较 Newton-Raphson 方法 、 二 分 法 、 不 动 点 法 和 正 割 法 的 速度 和 稳定 性 . 
当 你 把 上 述 方法 应 用 于 一 个 来 自 N(9,1) 的 20 个 随机 样本 时 , 你 的 结论 有 无 改变 ? 

设 密度 函数 为 f(z) = “ER 0 < z < 2a, 其 中 0 是 介 于 -r 和 x 间 的 参数 , 且 

来 自 此 密度 的 独立 同 分 布 的 样本 为 : 3.91, 4.85, 2.28, 4.06, 3.70, 4.04, 5.46, 3.53, 2.28, 

1.96, 2.53, 3.88, 2.22, 3.47, 4.82, 2.46, 2.99, 2.54, 0.52, 2.50. 我 们 希望 估计 0. 

(a) 画 出 在 -x 和 x 间 的 对 数 似 然 函 数 . 

(b) R 9 的 矩 估 计 ， 

(c) 把 (b) 求 得 的 估计 作为 初 值 , 用 Newton-Raphson 方法 求 9 的 MLE. “RAPHE 
一 2.7 和 2.7 时 , 你 得 到 的 结果 如 何 ? 

(a) 当初 值 为 -x 和 x 间 的 200 个 等 距 分 隔 时 , 重复 (c). 把 这 些 初 值 分 成 若干 个 独立 
的 组 , 而 每 组 对 应 着 同一 个 最 优 值 (一 个 局 部 众 数 ), 讨论 你 的 结果 . 

(e) 找 两 个 尽 可 能 近似 相等 的 初 值 , 对 Newton-Raphson 方法 来 说 它们 收敛 到 两 个 不 同 
的 解 . 

假设 在 某 个 种 群 中 其 个 体 的 存活 时 间 t 具有 密度 函数 f 和 累积 分 布 函数 F, 则 S(t) = 

1 一 F(t) 为 其 生存 函数 ,而 其 危险 函 教 (hazard function) 为 h(t) = f(t)/(1— F(t), € 

表示 在 其 已 存活 时 间 为 t 的 条 件 下 在 时 刻 死亡 的 瞬时 风险 . 比例 危险 模型 假设 危险 函 

数 依赖 于 时 间 t 和 协 变 向 量 z, 且 其 模型 为 


hltlz) = A(t) exp{2" 8}, 


其 中 g 为 一 参数 向 量 . 
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2.4 


2.5 


如 果 A(t) = he A(u)du, 则 易 证 S(t) = exp {A(t) exp{2™ A}, f(t) = At) exp 

{a™B— A(t)exp{a*B}}. 

(a) 假设 我 们 的 数据 在 生存 时 间 &(i 二 1,… ,n) AMR, 即 在 研究 结束 时 ， 一 个 种 者 要 
么 已 死 (知道 其 生存 时 间 ), 要 么 仍 存 活 (MRE, 知道 其 至 少 在 研究 结束 时 仍 存 
活 ). 如 果 te ALANA, 则 定义 ws 为 1 否则 定义 we 为 0. 证 明黄 对 数 似 然 具 
有 如 下 形式 ， 


De log {ui} = me) + 2 wi log { an i 


其 中 j= A(t) exp {a8) 

(b) 考虑 模拟 临床 试验 中 急性 白血病 患者 的 缓解 时 间 长 度 . 在 研究 中 , 每 一 个 患者 要 么 
服用 6- HÆR (6-MP), 要 么 服用 安慰 剂 ([177])， 从 研究 开始 1 年 后 , 每 一 位 
患者 的 缓解 时 间 ( 周 ) 被 记录 在 表 2.2 中 . 由 于 某 些 患者 的 缓解 时 间 超过 了 研究 期 
限 , 故 有 些 结果 是 删 失 数据 ， 此 项 研究 的 目的 在 于 确定 6-MP 这 种 处 理 是 否 能 延长 
缓解 时 间 . 假设 A(t) = t°, 其 中 a > 0, 且 由 此 产生 的 危险 函数 正比 例 于 ot?! 
ALA Weibull 密度 : f(t) = at? exp {fzT7B —t*exp{x7B}}. 把 协 变 向 量 参数 化 
成 EFB = Bo + 5:61, 如 果 第 i 个 患者 服用 6-MP, 则 i 为 1, 否则 为 0， 编 制 
Newton-Raphson 算法 程序 求 £o, Bi 的 MLE. 


表 2.2 ”在 一 个 缓解 急性 白血病 患者 的 临床 试验 中 ， 处 理 组 与 控制 组 的 缓解 长 度 
( 周 ), 括号 中 的 数据 为 删 失 的 .对 于 删 失 情况 ,此 患者 的 缓解 时 间 至 少 为 


括号 中 给 出 的 数据 
处 理 (6) 6 6 6 7 (9) (10) 
10 (11) 13 16 (17) (19) (20) 
22 23 (25) (32) (32) (34) (35) 
控制 1 1 2 2 3 4 4 
5 5 8 8 8 8 11 
11 12 12 15 17 22 23 


(c) 应 用 任 一 种 打包 软件 中 的 Newton-Raphson 或 拟 Newton 法 来 求解 上 述 MLE. 

(d) 估计 你 给 出 的 MLE 的 标准 误差 , 这 些 估计 是 高 度 相关 的 吗 ? 记录 它们 间 的 两 两 相 
关 . 

(e) 应 用 非 线性 Gauss-Seidel 和 迭代 求 MLE. 相对 于 多 元 Newton-Raphson 法 而 言 , 此 
方法 易于 操作 , 请 对 此 作 些 评价 . 

(f) 应 用 离散 Newton 法 求 MLE, 并 评价 此 方法 的 稳定 性 . 

KER 9 的 后 验 分 布 为 Gamma(2,1), R 8 的 95%HPD 区 间 , 即 此 区 间 以 95% 的 后 验 概 

率 保证 落 在 此 区 间 内 任 一 点 的 后 验 密度 都 不 低 于 此 区 间 外 任 一 点 的 密度 . 由 于 Gamma 

密度 是 单 峰 的 , 故此 区 间 也 是 包含 95% 后 验 概率 的 最 短 区 间 . 

在 1974 年 至 1999 年 期 间 , 美国 水 域 共有 46 起 严重 的 原油 泄露 事件 , 且 每 次 从 油轮 汇 

露出 的 原油 不 少 于 1 000 W. 本 书 主页 包含 如 下 数据 : 第 i 年 的 泄露 数 Ni; 第 i 年 作为 

美国 进出 口 一 部 分 的 在 美国 水 域 经 油轮 运输 原油 总 量 的 估计 值 bii( 此 值 根据 在 国际 或 
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2.6 


国外 水 域 的 泄露 量 进行 了 调整 ); 第 i 年 在 美国 水 域 经 国内 油轮 运输 的 原油 总 量 bi2. 此 

数据 来 源 于 [11], 原油 运输 总 量 以 百 万 桶 (Bbbl) 计 . 
原油 的 油轮 运输 量 是 泄露 风险 的 一 个 度量 . 假设 给 定 baba 下 Ni 的 分 布 为 Pois- 

son 分 布 , 即 Nilbia bio ~ P(A;), 其 中 Xi = orbi + qzbi2， 此 模型 的 参数 为 01,02, 它 

们 分 别 表示 在 进出 口 和 国内 运输 时 每 百 万 桶 发 生 洪 露 的 比率 . 

(a) 给 出 用 Newton-Raphson 法 求 a1, a2 的 MLE 的 更 新 方程 . 

(b) 给 出 用 Fisher 得 分 法 求 ea, as 的 MLE 的 更 新 方程 . 

(c) 针对 此 问题 , 运行 Newton-Raphson 法 和 Fisher 得 分 法 , 给 出 其 MLE, 并 从 是 否 易 
于 操作 及 表现 上 比较 这 两 种 方法 . 

(d) 估计 aa,as 的 MLE 的 标准 误差 . 

(e) 应 用 带 有 步 长 取 半 的 倒 向 追踪 的 最 速 上 升 法 , RI MLE. 

(£) 用 由 (2.49) 式 给 出 的 Hessian 阵 的 近似 更 新 , 考虑 应 用 拟 Newton 优化 法 . 

(e) 类 似 于 图 2.8, 画 一 个 用 来 比较 在 (a) 一 (f) 中 所 用 方法 的 路 径 图 , 所 选 的 区 域 和 初 值 
能 很 好 地 说 明 上 述 算法 的 表现 . 

表 2.3 给 出 了 各 个 时 间 点 面 象 虫 (tour beetle) 或 杂 拟 谷 盗 (tribolium confusum) 群体 

的 数量 , 在 每 个 成 长 阶段 的 面 象 虫 都 被 记录 , 且 仔 细 控制 其 所 用 面粉 , 


表 2.3 Mit 154 天 的 每 个 成 长 阶段 的 面 象 虫 数量 


天 数 0 8 28 41 63 79 97 117 135 154 
面 象 虫 2 47 192 256 768 896 1120 896 1184 1 024 


种 群生 长 的 一 个 基本 模型 就 是 下 面 的 逻辑 斯 带 模 型 


Ny 人 = z) A (2.57) 
其 中 N 是 种 群 数量 , t 是 时 间 , r 是 生长 率 参数 ，K 表示 对 环境 的 承载 能 力 ， 此 微分 方 


程 的 解 为 
KNo 


Ne= (= ey 

其 中 Ne 表示 时 刻 t 时 的 种 群 数量 . 

(a) 用 逻辑 斯 蒂 生 长 模型 拟 合 面 象 虫 , 并 用 Gauss-Newton 法 最 小 化 模型 预测 数量 与 观 
测 数 量 间 的 平方 误差 . 

(b) 用 逻辑 斯 蒂 生 长 模型 拟 合 面 象 虫 , 并 用 Newton-Raphson 法 最 小 化 模型 预测 数量 与 
观测 数量 间 的 平方 误差 . 

(c) 在 多 个 种 群 模拟 应 用 中 , 多 采用 对 数 正 态 假设 . 一 个 最 简单 的 假设 即 假设 log Ni 独 
立地 服从 均值 为 log f(t), 方差 为 o? WESA. 用 Gauss-Newton 法 和 Newton- 
Raphson 法 求 在 此 假设 下 的 MLE, 给 出 参数 估计 的 标准 误差 并 估计 二 者 间 的 相 
关 , 且 给 出 你 的 评价 . 


(2.58) 
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当 了 解 到 存在 着 多 数 方法 均 无 法 解决 的 优化 问题 时 , Sb A, 

尽管 在 某 些 非 统计 教科 书 上 经 常 需要 求 最 小 值 , 但 除了 3.4 节 外 , 本 章 都 将 从 
最 大 化 角度 提出 这 些 问题 . 对 于 统计 应 用 而 言 , 最 大 化 对 数 似 然 等 价 于 最 小 化 负 的 
对 数 似 然 . 

假设 我 们 的 目的 在 于 求 函数 f(9) 关于 9 = (01, ,bp) 的 最 大 值 , 其 中 6e © 
且 o 中 元 素 的 个 数 为 有 限 正 整数 N. 在 统计 应 用 中 , 似 然 函数 经 常 都 依赖 于 结构 
参数 (configuration parameter), 而 结构 参数 是 用 来 描述 统计 模型 形状 的 , 且 它 有 多 
种 互 不 关联 的 选择 . 如 果 最 好 的 结构 参数 是 已 知 的 , 则 其 余 少 数 参 数 就 很 容易 被 优 
化 . 此 时 , 我 们 可 以 把 f(9) 看 作 结构 参数 6 的 对 数 偏 似 然 , 也 就 是 说 , 通过 应 用 结 
构 参 数 , 可 取得 最 大 似 然 值 . 3.1.1 节 给 出 了 几 个 例子 . 

每 一 个 be O 都 被 称 为 候选 解 (candidate solution). 令 fmax 为 f(0) 在 日 内 
可 达 的 整体 最 大 值 , HS M = {0 € 6 : f(0) = fma) 为 函数 的 最 大 值 集 ， 如果 有 
结 (tie), W M 包含 的 元 素 多 于 一 个 . TR 9 AMSA, 如 果 存 在 令 人 迷惑 的 局 部 
最 大 值 , 平稳 解 , 或 在 © 中 趋向 最 大 值 的 路 径 很 长 或 当 N 很 大 时 , 求 得 M 中 的 一 
个 元 素 是 非常 困难 的 . 


3.1 ”难题 和 NP 完备 性 


实际 上 , 组 合 优化 问题 一 般 是 很 难 的 . 在 这 样 的 问题 中 , 关于 p 个 数 的 组 合 或 
排列 有 许多 种 , 而 其 中 每 一 种 都 对 应 着 可 能 解 空 间 中 的 一 个 元 素 , 而 最 大 化 则 需要 
在 这 个 很 大 空间 中 进行 搜索 . 

例如 , 我 们 考虑 旅行 商 问 题 (traveling salesman problem). 在 此 问题 中 , 旅行 商 
必须 访问 p 个 城市 中 的 每 一 个 , 且 只 访问 一 次 后 再 回 到 出 发 地 , 并 要 求 其 总 的 旅 
行距 离 最 短 , 即 我 们 要 求 在 所 有 可 能 的 路 线 中 寻找 总 旅行 距离 最 短 者 (也 即 要 最 
大 化 其 负 距 离 )， 如 果 两 个 城市 间 的 距离 不 依赖 于 旅行 商 的 旅行 方向 , 则 路 线 共有 
(p - 1)!/2 种 可 能 (因为 出 发 点 与 旅行 方向 是 任意 的 ) 注意 , 任 一 次 旅行 都 对 应 着 
数 1 … ,p 的 一 个 排列 , 而 此 排列 即 表示 访问 城市 的 顺序 

为 考虑 解 此 类 问题 的 难度 , 先 讨论 要 得 到 求解 此 问题 所 需 的 算法 需要 几 步 ， 
中 每 一 步 都 是 简单 的 运算 , 如 四 则 运算 、 比 较 和 分 支 指令 (branching) 等 . 当然 , 运 
算 次 数 依赖 于 相关 问题 的 大 小 . 一 般 地 , 问题 的 大 小 是 以 此 问题 需要 的 输入 次 数 来 
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衡量 的 . 对 于 旅行 商 问题 , 其 大 小 则 取决 于 排列 后 p 个 城市 的 位 置 . 为 刻画 一 个 大 
小 为 p 的 问题 的 难度 , 通常 是 在 最 差 的 情形 下 用 已 知 的 最 好 算法 解决 此 问题 所 需 
要 的 运算 次 数 来 衡量 . 
因为 运算 次 数 随 所 用 语言 和 策略 在 改变 , 故 它 仅 是 一 个 粗糙 的 概念 . 然而 , 应 

记号 O(h(p)) 来 界定 运算 次 数 是 很 方便 的 . 如 果 h(p) 是 p 阶 多 项 式 , 则 称 此 算 
法 为 多 项 式 算法 . 

尽管 在 一 台 计 算 机 上 的 实际 运行 时 间 依赖 于 计算 机 速度 , 但 我 们 一 般 均 假设 每 
次 运算 都 需要 相同 的 时 间 (一 个 时 间 单位 ), 故 运行 时 间 就 等 价 于 运算 次 数 ， 于 是 ， 
尽管 不 同 算法 的 绝对 运行 时 间 不 同 , 但 我 们 可 以 用 运行 速度 来 比较 算法 的 速度 . 

考虑 大 小 p = 20 的 两 个 问题 . 假设 第 一 个 问题 可 以 在 多 项 式 时 间 (比如 O(p?) 
次 运算 ) 内 解决 , 且 在 自己 办 公 室 的 计算 机 上 , 求解 需 1 分 钟 . 于 是 , 解决 大 小 为 21 
的 问题 将 多 需要 几 秒 钟 ; 解决 大 小 为 25 的 问题 需要 1.57 分 钟 ; 大 小 为 30 的 问题 
需要 2.25 分 钟 ; 大 小 为 50 的 问题 需要 6.25 分 钟 . 假设 第 二 个 问题 的 时 间 为 O(p!)， 
且 解 决 一 个 大 小 为 20 的 问题 需要 1 分 钟 , 则 大 小 为 21 的 问题 需要 21 分 钟 ; 大 小 
为 25 的 问题 需要 12.1 年 (6 375 600 分 钟 ); 大 小 为 30 的 问题 需要 252 亿 7 百 万 
年 ; 大 小 为 50 的 问题 需要 2.4x104 年 , 类似 地 , 如 果 用 一 个 运算 次 数 为 O(p!) 阶 
的 算法 解决 大 小 为 20 的 旅行 商 问题 需要 1 分 钟 , 则 要 帮助 此 旅行 商 确定 一 个 旅行 
美国 50 个 州 的 最 佳 路 线 的 时 间 要 比 宇宙 的 寿命 还 要 长 . 另外 , 用 速度 快 1 000 倍 
的 计算 机 也 不 太 可 能 降低 难度 . 结论 是 严酷 的 , 即 求解 某 些 优化 问题 是 非常 困难 的 . 

-个 多 项 式 问 题 , 即使 对 于 大 的 p 和 高 阶 多 项 式 , 其 复杂 度 也 远 小 于 很 小 的 非 多 项 

式 问题 的 复杂 度 . 

关于 问题 复杂 度 的 讨论 见 [189,425]. 为 便于 将 来 讨论 此 问题 , 我 们 必须 严格 区 
别 优化 (搜索 ) 问题 和 决策 (识别 ) 问题 . 迄今 为 止 , 我 们 已 考虑 了 如 下 形式 的 优化 上 
题 :“ 求 9 es © 使 其 最 大 化 /(6)”. 而 与 此 相对 应 的 决策 问题 为 “对 于 固定 的 常数 
c, 是 否 存在 一 个 6 e © 使 得 f(9) > c?” 显 然 , 上 述 两 个 问题 有 着 密切 的 关系 . 通 
常 , 我 们 可 以 通过 适当 地 选取 c 的 值 而 重复 求解 决策 问题 以 解决 优化 问题 . 

一 般 地 , 在 多 项 式 时 间 内 能 解决 的 决策 问题 (例如 , 对 于 p 个 输入 , 共有 O(p*) 
个 运算 , 其 中 k 为 常数 ) 都 被 认为 是 能 有 效 求解 的 ([189]). 以 集合 P 表示 这 些 问题 
的 全 体 . 一 个 问题 一 旦 能 被 一 个 时 间 为 多 项 式 的 算法 解决 , 则 其 多 项 式 阶 数 经 常 很 
快 地 被 减少 为 一 个 实际 可 接受 的 水 平 ([425]). 如果 能 验证 一 个 决策 问题 可 以 在 多 
项 式 时 间 内 被 解决 , 则 称 之 为 一 个 NP 问题 . 显然 , 一 个 在 P 中 的 问题 肯定 是 NP 
问题 . 然而 , 可 能 存在 许多 决策 问题 , 如 旅行 商 问题 , 易于 验证 且 难 于 求解 . 事实 上 ， 
许多 NP 问题 都 很 难 在 多 项 式 时 间 内 求 得 其 解 . 另外 , 也 已 证 明 许多 NP 问题 属于 
某 个 特殊 集合 , 只 要 一 个 算法 能 解决 此 集合 中 的 一 个 问题 , 则 此 算法 也 可 解决 此 集 
合 中 其 他 问题 . 称 此 集合 为 完备 NP 问题 族 (class of NP-complete problems). 当然， 


a 
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也 存在 着 许多 其 他 类 别 的 困难 问题 . 对 于 这 些 困 难 问题 ， 即使 无 法 证 明 此 问题 为 完 
备 NP 问题 , 但 一 个 多 项 式 算法 (如 果 能 找到 的 话 ) 也 将 可 以 求解 所 有 的 完备 NP 
问题 . 则 称 这 些 困难 问题 为 NP 难题 (NP-hard problems). 现 仍 有 多 个 很 难 的 组 合 
决策 问题 , 它们 可 能 是 完备 NP 问题 或 NP 难题 ， 但 仍 未 能 够 证 明 它们 具体 属于 哪 
类 , 最 后 , 优化 问题 并 不 比 其 对 应 的 决策 问题 容易 , 且 我 们 仍 可 以 用 上 述 分 类 方法 
把 优化 问题 分 类 . 

现 已 证 明 , 如 果 任 一 个 完备 NP 问题 都 有 一 个 多 项 式 算法 , 则 一 定 存在 适用 所 
有 完备 NP 问题 的 多 项 式 算法 . 科学 家 们 未 能 找到 适用 于 所 有 完备 NP 问题 的 多 
项 式 算法 . 由 此 引出 一 个 著名 猜想 : 对 于 任 一 完备 NP 问题 都 不 存在 多 项 式 算法 . 
此 猜想 的 证 明 或 反例 仍 属于 数学 中 的 几 大 未 解 问题 之 一 . 

由 此 让 我 们 认识 到 现 仍 存在 多 个 很 难 的 优化 问题 ， 且 用 传统 方法 很 难 严格 地 将 
其 解决 . 如 在 生物 信息 、 试验 设计 和 非 参数 统计 模拟 中 的 多 个 问题 需要 组 合 优化 . 


3.1.1 几 个 例子 


现在 统计 学 家 已 慢 慢 认识 到 ， 在 主流 统计 模型 拟 合 中 经 常 遇 到 组 合 优化 的 问 
题 . 下 面 我 们 给 出 两 个 例子 . 一 般 地 ， 如 果 模型 拟 合 需要 利用 最 优 决策 以 确定 可 能 
参数 集中 的 哪些 参数 出 现在 模型 中 , 则 它 经 常 是 一 个 组 合 优化 问题 . 

例 3.1 (遗传 学 ) 我 们 经 常 利用 非常 复杂 的 组 合 优化 问题 来 分 析 个 体 和 近亲 
个 体 群 的 基因 数据 . 比如 , 一 个 染色 体 的 基因 定位 问题 就 是 遗传 图 问题 . 

一 个 染色 体 中 的 基因 或 更 一 般 的 基因 标记 都 可 以 用 一 个 记号 序列 来 表示 ， 而 
沿 着 染色 体 的 每 个 记号 的 位 置 称 为 它 的 位 点 (locus). 记号 标示 出 基因 或 基因 标记 ， 
而 存储 在 一 个 位 点 的 特定 内 容 就 是 一 个 等 位 基因 (allele) 
由 于 诸如 人 类 的 二 倍 体 物种 都 有 一 对 染色 体 . 于 是 , 在 任 一 位 点 都 有 两 个 等 位 
基因 . 如 果 一 个 位 点 的 两 个 等 位 基因 相同 , 则 称 此 个 体 在 此 位 点 是 纯 合 的 (homozyg- 
ous); 否则 , 称 之 为 杂 合 的 (heterozygous). 无 论 哪 种 情况 ， 每 一 亲本 都 在 子 本 一 对 染 
色 体 中 的 每 个 位 点 责 献 一 个 等 位 基因 . 由 于 在 子 本 染色 体 对 的 相应 位 点 , 亲本 有 两 
个 等 位 基因 , 故 亲本 的 贡献 有 两 种 可 能 . 尽管 亲本 的 每 一 等 位 基因 都 有 50% 的 机 会 
贡献 给 子 本 , 但 来 自 特定 亲本 的 贡献 并 不 是 随机 独立 的 . 相反 , 一 个 亲本 的 贡献 包 
括 一 条 染色 体 , 且 这 条 染色 体 是 在 减 数 分 裂 (meiosis) 期 间 由 此 父 本 两 条 染色 体 中 
的 染色 体 片段 所 构成 的 , 而 这 些 片段 将 含有 多 个 位 点 . 当 在 所 贡献 的 染色 体 中 的 等 
位 基因 从 来 自 亲 本 中 某 一 条 染色 体 变 成 来 自 另 一 条 染色 体 时 , 就 出 现 了 一 个 交叉 互 
换 (crossover). 图 3.1 给 出 了 在 减 数 分 裂 期 间 出 现 的 一 个 交叉 互 换 及 由 一 个 亲本 员 
献 给 子 本 的 染色 体 . 这 种 贡献 方法 意味 着 此 亲本 中 的 一 条 染色 体 上 位 点 非常 接近 的 
等 位 基因 最 有 可 能 一 起 出 现在 由 此 亲本 贡献 的 染色 体 中 . 
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亲本 的 染色 体 亲本 染色 体 对 子 本 的 
贡献 


0 00 0 0 
x ne 800 11| 
1 11 1 1 RABE 
3.1 “在 减 数 分 裂 期 间 , 一 个 交叉 互 换 出 现在 第 三 个 位 点 与 第 四 个 位 点 之 间 . 0 和 1 分 别 表 
示 每 个 等 位 基因 在 贡献 染色 体 上 的 原始 位 置 . 为 简单 , 此 处 仅 给 出 了 一 个 亲本 贡献 


当 在 一 条 亲本 染色 体 两 个 位 点 的 等 位 基因 经 常 频繁 地 (相对 于 偶然 机 会 所 期 望 
的 而 言 ) 一 起 出 现在 贡献 的 染色 体 上 时 , 我 们 就 称 它们 是 关联 的 或 连接 的 (linked). 
当 在 一 条 亲本 染色 体 两 个 不 同位 点 的 等 位 基因 没有 同时 出 现在 贡献 的 染色 体 上 时 ， 
则 在 位 点 间 出 现 了 重组 (recombination). 重组 频率 决定 了 两 个 位 点 间 的 关联 度 , 而 
且 少 见 的 重组 对 应 着 强 关联 , 两 个 位 点 间 的 关联 度 或 图 距离 (map distance) 对 应 着 
两 个 位 点 间 交 叉 互 换 的 期 望 次 数 . 

一 个 p 个 标记 的 遗传 图 包含 着 其 位 点 的 一 个 排序 和 相 邻 位 点 间 的 重组 距离 或 
概率 列表 . 给 每 个 位 点 分 配 一 个 标号 1(1 = 1,2,… ,p). 以 09 = (01,… ,bp) 表示 图 
的 排序 部 分 (ordering component). 它 表 示 P 个 位 点 标号 的 位 置 沿 着 染色 体 的 排 
列 , 且 如 果 标号 为 1 的 位 点 处 于 染色 体 的 第 ; 个 位 置 , 则 9; = 1. 于 是 , 9 是 整数 
1,2,… ,p 的 一 个 排列 ,一 个 遗传 图 的 其 他 部 分 就 是 相 邻 位 点 间距 离 的 列表 . 令 相 
邻 位 点 9; 和 0;+1 间 的 重组 概率 为 4(0;,0;.1), 且 其 总 和 为 位 点 间 的 图 距离 . 图 3.2 
给 出 了 一 个 图 例 . 


位 置 ,7 1 2 3 4 
O=8 0=3 0=1 =4 =2 
位 点 ,4 [4] 
~ 
BERS, d(9,, 0;41) d(3,1) d1,4) 4,2) 


图 3.2 有 op = 4 个 位 点 的 遗传 图 例 . 以 在 盒子 中 的 号 码 表 示 染 色 体 相应 位 置 上 的 
位 点 . 位 点 的 正确 顺序 列 由 0; 定义 , 位 点 间 的 距离 为 d(0;,9;+1),j = 1,2,3 


此 图 可 由 一 组 样本 在 p 个 位 点 观测 到 的 基因 来 估计 , 而 此 组 样本 为 来 自 p 个 
位 点 均 杂 合 的 亲本 在 减 数 分 裂 期 间 所 生成 的 n 条 染色 体 . 而 每 条 染色 体 均 表示 成 
由 0 和 1 组 成 的 一 个 序列 , 且 由 它们 标示 出 了 每 一 个 等 位 基因 在 贡献 亲本 中 的 原始 
位 置 . 例如 , 在 图 3.1 右边 所 描述 的 染色 体 可 用 “00011 表示 , 这 是 因为 前 三 个 等 位 
基因 来 自 此 亲本 的 第 一 条 染色 体 , 而 后 两 个 等 位 基因 来 自 此 亲本 的 第 二 条 染色 体 . 

令 随机 变量 Xe, 表示 在 减 数 分 裂 期 间 生 成 的 第 i 条 染色 体 中 标号 为 b 的 
位 点 上 的 核心 基因 的 原始 位 置 . 数据 集 包括 这 些 随机 变量 的 观测 co FÆ, 如 
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果 |zig; — Tional = 1, 则 第 i 条 染色 体 的 两 个 相 邻 标记 就 出 现 了 一 个 重组 : 如 果 
zio; — Tio; = 0, 则 没有 观测 到 重组 . 如 果 假设 每 个 区 间 内 重组 事件 的 发 生 是 独 
立 的 , 则 一 个 给 定 图 的 概率 为 

poli 


TT TY {4 = €06;,.6541)) (1 = i.e, — teeyurl) +405, Oja 0:0, — Tiol} (3.1) 


j=1i=1 


给 定 一 个 顺序 0, 易 得 重组 概率 的 MLE 为 


(0j,0;41) = 二 Fhe -= al- (3.2) 


给 定 AlO Ora), WFA j 和 了 二 1 RRRA D Xio -Xie 


它 服从 二 项 分 布 B(n,d(9;,0;+1)). 我 们 可 以 通过 加 入 p 一 1 个 租 邻 位 点 集 的 对 数 
APPA A (0, 0541) 替代 d(O;, 0541) 来 计算 9 的 偏 似 然 . 对 于 
任意 0, 以 d(6) 计算 这 些 极 大 似 然 估计 ， 则 6 的 偏 似 然 为 


p-1 
KOJAL) =Y n {d(6;,8;+1) 1og{ dl0;, 0;+1)}+(1 ~ d(@;, 6;.1)) log = (0;,0;+1)}} 
j=l 


p-l 
=F T(0;,0;+1), (3.3) 


其 中 如 果 d(0;,0;+1) 0 BRA, T(0j, 0j) 为 0. 则 通过 求 取 (3.3) 在 0 的 所 有 排 
列 中 的 最 大 值 , 可 求 得 极 大 似 然 遗传 图 . 注意 到 (3.3) 式 中 的 每 一 项 T(9;,9;41) 的 
值 仅 依赖 于 两 个 位 点 . 假设 可 列举 所 有 的 位 点 对 , 且 对 所 有 的 1<i<j<p,T(i,j) 
都 可 算得 , 则 TE j) 共有 p(p - 1)/2 ME. 于是, 对 于 任 一 排列 6, 其 偏 函数 可 立即 
由 加 和 7(z,7) 的 某 些 值得 到 . 

然而 , 求 取 偏 似 然 遗传 图 需要 在 pt/2 个 可 能 排列 中 寻找 最 大 的 偏 似 然 . 这 是 旅 
行商 问题 的 变形 , 其 中 每 一 个 基因 标记 对 应 着 一 个 城市 , 且 城 市 i 与 7 间 的 距离 为 
7TG,7 力 .旅行 商 的 旅行 可 从 任 一 城市 出 发 、 在 拜访 的 最 后 一 个 城市 结束 , 且 其 前 进 
与 倒退 是 等 价 的 . 目前 还 没有 在 多 项 式 时 间 内 能 解决 一 般 旅行 商 问题 的 已 知 算法 . 

此 例子 的 其 他 细节 和 推广 请 见 [190, 483]. o 

例 3.2 (回归 中 的 变量 选择 ) ”考虑 有 p 个 潜在 预测 变量 的 多 元 线性 回归 问 
题 . 选取 合适 模型 是 回归 中 最 基本 的 步骤 . 对 于 给 定 的 独立 变量 Y 和 候选 预测 变 
量 zx1, 7z2,… ,zp, 我 们 需要 找到 形 如 Y = 名 + Biti +e 的 最 佳 模型 ， 其 中 
{i ts} 为 {1,… ,p} 的 一 个 子 集 , e 为 随机 误差 、 另外 , 最 佳 模型 的 定义 可 能 多 
种 多 样 . 


3.2 局 部 搜索 45 


假设 我 们 的 目的 在 于 应 用 Akaike 信息 准则 (AIC) 来 选取 最 佳 模型 ([7, 75]). 
我 们 要 寻找 预测 变量 的 一 个 子 集 以 最 大 化 拟 合 模型 的 AIC: 


AIC = N log{RSS/N} + 2(s + 2), (3.4) 


其 中 N 为 样本 变量 , s 为 模型 中 预测 变量 的 个 数 , RSS 为 残 差 平方 和 . 另外 , 当 考 
IÈ Bayes 回归 时 , 假设 利用 正 态 -Gamma KAER: B ~ N(p,0?V),vdA/o? ~ x2. 
此 时 , 人 们 转 而 求 取 对 应 着 最 大 化 后 验 概率 模型 的 预测 变量 子 集 ([445]). 

无 论 对 于 上 述 哪 种 情况 , 因为 每 个 变量 或 截 距 项 都 可 能 被 选 入 或 去 掉 , 故 变量 
选择 问题 就 是 在 2P+1 个 可 能 的 模型 中 择优 . 对 于 2p+1 个 可 能 模型 中 的 每 一 个 , 都 
需要 估计 最 优 的 6;,. 而 对 于 任 一 给 定 模 型 , 此 步 很 容易 实施 . 尽管 现 已 有 一 些 搜索 
算法 可 用 来 进行 经 典 回归 模型 的 选择 , 且 比 穷 举 搜索 法 更 有 效 , 但 它 仅 对 相对 较 小 
的 p 才 可 行 ([188, 396]). 我 们 知道 , 为 求 取 AIC 或 Bayes 角度 的 整体 最 优 值 , 现 仍 
没有 一 个 有 效 的 一 般 算法 . 口 
3.1.2 ”需要 启发 式 算法 


如 此 具有 挑战 性 的 问题 的 存在 要 求 我 们 对 最 优化 进行 新 的 思考 .我 们 有 必要 
放弃 那些 能 保证 找到 整体 最 优 (在 适当 条 件 下 ) 但 在 实际 可 操作 的 时 间 内 不 可 能 完 
成 的 算法 . 取而代之 的 是 , 我 们 转 而 寻找 那些 在 可 容忍 的 时 间 内 能 找到 一 个 好 的 局 
部 最 大 值 的 算法 . 

有 时 称 这 样 的 算法 为 启发 式 算法 . 我 们 希望 利用 这 些 算法 平衡 速度 与 整体 最 
AR, 从 而 找到 一 个 可 与 整体 最 优 竞 争 的 候选 者 (也 就 是 接近 最 优 值 ). 启发 式 算法 的 
两 个 基本 特征 是 : 

(1) 逐步 改进 当前 的 候选 解 ， 

(2) 限制 任 一 步 迭 代 仅 在 局 部 邻 域 里 寻找 . 

这 两 个 特征 表明 启发 式 算法 首先 强调 的 是 局 部 搜索 策略 . 

没有 一 种 启发 式 算法 能 很 好 地 处 理 所 有 问题 . 事实 上 , 以 处 理 所 有 可 能 的 离散 
函数 的 平均 表现 来 看 , 也 不 存在 一 种 搜索 算法 , 其 表现 较 别 的 好 (|487, 573])， 显 
然 , 对 不 同 问题 采用 不 同 的 启发 式 算法 是 明智 的 ， 于 是 除 局 部 搜索 外 ,我 们 还 将 
研究 禁忌 算法 (tabu algorithm), 模拟 退火 (simulated annealing) 和 遗传 算法 (genetic 
algorithm). 


3.2 局 部 搜索 


局 部 搜索 是 一 个 非常 广阔 的 优化 范例 . 本 章 讲述 的 所 有 方法 均 属于 局 部 搜索 . 
在 本 节 将 引出 某 些 局 部 搜索 的 最 简单 最 一 般 的 变化 , 如 k 最 优 和 随机 初 值 的 局 部 搜 
R. 
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基本 的 局 部 搜索 是 一 种 迭代 方法 . CH 94+0 来 更 新 当前 第 t 步 迭 代 的 候选 
解 9 中 .此 时 的 更 新 称 为 一 步 移 动 (move) 或 一 步 运 算 (step). 一 步 或 多 步 可 能 的 移 
动 均 来 自 0 W— MB NO). ARAM FARA RRNA F: 
在 每 一 步 先 代 , 它 仅 需要 在 O 的 很 小 部 分 中 进行 搜索 , 而 @ 的 大 部 分 均 不 需要 验 
证 . 其 缺点 在 于 : 搜索 可 能 在 某 个 不 满意 的 局 部 最 大 值 处 停止 . 

当前 候选 解 的 邻 域 (0) 包含 那些 在 0 附近 的 候选 解 , 而 这 种 临近 性 通过 
限制 改变 当前 候选 解 (用 来 生成 其 他 候选 解 的 当前 解 ) 的 次 数 来 保证 .实际 上 , 我 
们 最 好 仅 对 当前 候选 解 进行 简单 改变 , 以 期 得 到 一 个 易于 搜索 与 抽样 的 小 邻 域 . BE 
复杂 的 改变 是 难于 概念 化 和 编程 的 , 且 运算 很 慢 . 另外 , 它们 的 表现 也 少 有 改进 , 尽 
管 直观 上 看 大 邻 域 产生 较 差 局 部 最 大 值 的 可 能 性 较 小 .如 果 某 邻 域 允 许 对 当前 候 
选 解 有 上 种 变化 , 则 称 此 邻 域 为 上 - 邻 域 , 且 称 对 当前 候选 解 的 & 个 特征 的 改变 为 
一 个 k- 变化 . 

有 意识 地 模糊 一 个 邻 域 的 定义 就 是 允许 在 多 种 问题 中 灵活 应 用 这 一 术语 , 对 于 
在 例 3.1 中 引进 的 遗传 图 问题 , 假设 OO 为 基因 标记 的 当前 顺序 , 则 一 个 简单 邻 域 
即 为 在 交换 顺序 为 9 的 染色 体 上 两 个 标记 的 位 置 所 得 顺序 的 集合 . 在 例 3.2 的 回 
归 模 型 的 选择 问题 中 , 一 个 简单 邻 域 即 为 由 9 增加 或 减少 一 个 预测 变量 的 模型 
集合 . 

一 个 局 部 邻 域 通常 将 包括 几 个 候选 解 . ZEB BR, 一 个 显而易见 的 策略 就 
是 在 当前 邻 域 的 所 有 候选 解 中 选择 最 优 的 , 这 就 是 最 可 上 升 法 (steepest ascent). 为 
促进 其 表现 , 人 们 首先 会 考虑 替换 随机 选取 的 邻 域 以 使 得 其 目标 函数 超过 它 前 面 的 
值 , 这 即 为 随机 上 升 法 (random ascent) 或 其 次 上 升 法 (next ascent). 

如 果 最 速 上 升 法 应 用 k- 邻 域 , 则 称 其 解 为 上 - 最 优 的 ， 另 外 , 任何 由 9 上 升 
BOO) 的 局 部 搜索 算法 就 是 一 个 上 升 算法 , 即使 它 的 上 升 高 度 在 (0) 中 可 能 
不 是 最 高 的 . 

不 管 全 局 最 优 而 只 在 小 邻 域 中 序 贯 地 选择 最 优 值 的 算法 是 贪 焚 算 法 (greedy 
algorithbm).， 一 个 采用 贪 禁 算法 的 象棋 手 可 能 不 顾 后 果 而 仅 考虑 当前 的 最 优 移动 : 
他 可 能 移动 马 去 吃 对 方 的 卒 而 不 考虑 其 马 下 步 可 能 会 被 对 手 吃 掉 . 在 从 当前 候选 
解 邻 域 选取 一 个 新 候选 解 时 ， 聪 明 的 做 法 是 必须 在 眼前 最 佳 移动 和 寻找 具有 整体 
竞争 力 解 之 间 保 持平 衡 ， 为 避免 一 个 不 好 的 局 部 最 大 值 , 有 时 避 开 0 方向 上 的 
最 优 邻 域 也 可 能 是 合理 的 , 这 一 点 将 在 后 面 看 到 .例如 , 当 8@ 是 一 个 局 部 最 大 
值 时 , 最 速 上 升 法 /适度 下 降 法 (steepest ascent/mildest descent, [266]) 允许 下 一 步 
0) e (0M) 为 最 适合 的 ( 见 3.3 节 ). 现 有 多 种 用 来 从 N(9) 中 选取 一 个 候选 
解 邻 域 的 技术 以 及 用 来 决定 是 采用 新 的 还 是 保留 09 的 随机 决策 准则 . 这 些 算法 
均 产 生 一 条 马 氏 链 (0 }(t = 0,1,…) 并 且 与 第 7 章 的 模拟 退火 (3.4 节 ) 及 其 他 
方法 都 密切 相关 . 
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对 于 k- 变化 的 最 速 上 升 法 , 当 大 大 于 1 或 2 时 , 由 于 其 邻 域 的 大 小 随 k 迅速 
增加 , 故 在 当前 邻 域内 的 搜索 可 能 非常 困难 . 对 于 大 的 k, 把 k- 变化 分 成 几 个 小 的 
部 分 , 之 后 在 较 小 的 邻 域内 序 贯 地 选取 最 优 候选 解 是 非常 有 益 的 . 为 提升 搜索 的 多 
样 性 , 可 以 把 一 步 k 变化 分 解 成 几 个 较 小 的 序列 变化 , 并 结合 准许 一 个 或 多 个 较 小 
步 为 子 集 最 优 (如 随机 的 ) 的 策略 . 这 样 的 可 变 深度 (variable-depth) 的 局 部 搜索 法 
允许 一 个 更 好 的 潜在 步 偏离 当前 的 候选 解 , 即使 它 在 k- 邻 域 中 不 可 能 是 最 优 的 . 

上 升 算法 经 常 收敛 于 一 个 不 具有 整体 竞争 力 的 局 部 最 大 值 , 随机 初 值 的 局 部 搜 
$ (random starts local search) 技术 即 为 克服 这 一 不 足 的 一 种 方法 . 此 时 , 从 多 个 
初 值 出 发 , 重复 运行 一 个 简单 的 上 升 算法 直到 结束 .这些 初 值 是 随机 选取 的 . 选取 
初 值 的 一 个 最 简单 方法 即 是 在 O 中 独立 且 均 匀 地 随机 选取 . 某 些 精 致 方法 可 能 考 
虑 某 种 类 型 的 分 层 抽样 , 而 其 层 是 通过 某 些 试 运行 以 期 分 解 © 成 几 个 具有 不 同 收 
SAT A HE RABIN. 

仅 依赖 随机 初 值 来 避免 局 部 最 大 值 看 来 不 是 令 人 很 满意 . 在 后 面 几 节 , 我 们 将 
引入 一 些 修改 的 局 部 搜索 法 , 而 这 些 修改 的 目的 在 于 每 一 次 运行 均 有 机 会 求 得 具有 
整体 竞争 力 的 候选 解 , 也 可 能 是 整体 最 优 值 . 当然 , 也 可 结合 应 用 多 重 随机 初 值 的 
策略 和 这 些 修改 方法 以 提供 一 个 更 可 信 的 最 优 解 

例 3.3 (棒球 运动 员 的 薪水 ) ”实际 上 , 如 果 时 间 允 许 采 用 多 个 随机 初 值 , 则 由 
于 随机 初 值 的 局 部 搜索 法 易于 编程 且 运 行 速度 快 , 故 它 是 一 种 非常 有 效 的 方法 . 这 
里 , 我 们 考虑 它 在 回归 模型 选择 问题 上 的 应 用 . 

表 3.1 列 出 了 27 个 反映 棒球 员 表 现 好 坏 的 变量 , 如 击 球 百分比 和 本 又 打数 . 
这 些 数据 来 自 1991 年 的 337 位 球员 (不 包括 投手 ). 球员 在 1992 年 的 薪水 单位: 
千 美 元 ) 可 能 与 上 一 赛季 的 这 些 变量 有 关 . 这 些 数据 来 自 [555], 也 可 从 本 书 主页 上 
下 载 . 我 们 把 薪水 变量 的 对 数 作为 响应 变量 , 其 目的 在 于 应 用 线性 回归 模型 来 求 取 
预测 薪水 对 数 的 最 优 预 测 变 量子 集 . 如 假设 任 一 模型 均 有 截 距 项 , 则 搜索 空间 共有 
227 = 134 217 728 个 可 能 的 模型 . 


表 3.1 影响 棒球 员 薪 水 的 潜在 变量 


1. 击 球 率 10. 三 击 未 中 出 局 (SO) 19. 每 个 SO fui we 
2. ESN Ste (OBP) 11. &#%& (SB) 20. OBP/ 失 误 

3. 纪录 到 的 跑 全 得 分 12. 失误 21. 每 次 失误 的 跑 健 得 分 
4. 安打 数 13. 自由 队员 = 22. 每 次 失误 的 安打 

5. 二 双打 14. 仲裁 23. 每 次 失误 的 HR 

6. 三 刍 安打 15. 每 次 SO 的 得 分 24. SOx 失误 

7. 本 刍 打 (HR) 16. 每 次 SO 的 安打 25. SBxOBP 

8. HREH (RBI) 17. 每 次 SO 的 HR 26. SBx WER 

9. AB 18. 每 次 SO 的 RBI 27. SBx 安打 


a 自由 队员 或 有 资格 的 队员 . b 体裁 或 有 仲裁 资格 的 人 . 
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3.3 给 出 了 用 随机 初 值 的 局 部 搜索 方法 来 求 使 AIC 最 小 的 相应 回归 模型 的 
图 例 . 由 于 可 把 此 问题 看 成 求 负 AC 的 最 大 值 问题 , 于 是 , 可 用 上 升 搜索 来 衡量 
表现 . 邻 域 仅 局 限于 对 当前 模型 添加 或 去 掉 一 个 变量 的 一 个 变化 来 生成 . 从 5 个 随 
机 选取 的 变量 子 集 ( 即 五 个 初 值 ) 开始 搜索 , 且 分 配给 每 个 初 值 14 步 . 每 步 移动 均 
由 最 速 上 升 所 决定 . 由 于 每 步 最 速 上 升 均 要 求 搜索 27 个 邻 域 , 于 是 , 这 个 小 例子 就 
要 求 对 目标 函数 进行 1 890 次 计算 . 在 本 章 其 余部 分 的 关于 其 他 启发 式 算法 的 例子 
中 , 将 对 目标 函数 的 计算 加 以 适当 的 限制 . 

图 3.3 给 出 了 每 步 最 优 模型 的 AIC 值 . 由 于 很 快 就 找到 了 局 部 最 大 值 , 故 某 些 
设计 好 的 移动 就 变 得 没有 用 了 . K 3.2 汇总 了 搜索 的 一 些 结果 . 第 2 个 和 第 4 个 
随机 初 值 ( 记 为 LS(2, 4)) 得 到 最 优 的 AIC 为 -416.95, 其 模型 包含 变量 2，3，6， 
8, 10, 13, 14, 15, 16, 24, 25 和 26. 最 差 的 随机 初 值 为 第 5 个 , 其 对 应 模型 的 AIC 
为 -413.52 HA 10 个 变量 . 为 了 比较 , 仿 禁 逐步 回归 法 (S-Plus 中 的 step() 过 程 
[544]) 选取 的 模型 有 12 个 变量 , 其 AIC 值 为 -416.94. Efroymson 的 贪 禁 逐步 回归 
法 ([399]) 选取 的 模型 有 9 个 变量 , 其 AIC 值 为 -400.16. 然而 , 此 模型 的 设计 原则 
与 AIC 稍 有 不 同 , 其 目的 在 于 寻找 一 个 更 节俭 的 模型 . 用 默认 设置 , 上 述 这 些 成 熟 
算法 找到 的 模型 没有 一 个 优 于 用 简单 随机 初 值 的 局 部 搜索 法 得 到 的 模型 . 口 
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图 3.3 例 3.3 中 用 最 速 上 升 的 随机 初 值 局 部 搜索 的 结果 , 且 对 于 5 个 随机 初 值 , 至 多 有 15 
BIER. 图 中 仅 给 出 了 介 于 一 300 和 -420 间 的 AIC 值 


R32 Hl 3.3 的 利用 随机 初 值 局 部 搜索 模型 进行 选择 的 结果 . 圆 点 表示 每 个 所 选 模型 中 含 
有 对 应 的 变量 , 其 中 所 标识 的 模型 见 正文 中 的 解释 
选 入 变量 
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33 禁忌 算法 


禁忌 算法 是 一 种 带 有 一 组 附加 准则 的 局 部 搜索 算法 ， 这 些 准则 将 指导 我 们 在 
相信 可 以 提升 发 现 整体 最 大 值 的 方向 上 选取 移动 . 此 方法 应 用 可 变 的 邻 域 , 即 在 每 
次 迭代 中 选取 可 接受 移动 的 准则 在 变化 . 关于 禁忌 算法 的 详细 研究 请 见 [224, 225, 
227, 228, 229]. 

由 于 标准 的 上 升 算法 不 允许 向 下 移动 , 故 它 有 可 能 找到 没有 整体 竞争 力 的 局 部 
最 大 值 . 当 在 当前 邻 域 中 找 不 到 上 坡 移动 时 , 禁忌 搜索 将 允许 向 下 移动 (其 他 情况 
也 可 能 如 此 ), 因此 它 有 可 能 避 开 获得 局 部 最 大 值 . 当 没有 上 坡 移动 时 , 禁忌 算法 的 
早期 形式 , 可 称 为 最 速 上 升 法 /适度 下 降 法 , 将 移动 到 不 满意 度 最 小 的 邻 域 ([266]). 

如 果 选 取 一 步 下 坡 , 则 必须 小 心 以 保证 下 一 步 (或 将 来 的 某 步 ) 不 是 简单 地 逆 
转 下 坡 移动 . 这 样 的 循环 将 消除 下 坡 移动 潜在 的 长 期 好 处 . 为 防止 这 样 的 循环 , 将 
基于 此 算法 的 最 近 历 史记 录 , 暂时 禁止 或 禁忌 (tabu) 某 些 移动 . 

禁忌 搜索 法 共 把 四 种 一 般 类 型 的 准则 加 入 了 局 部 搜索 .第 一 种 就 是 临时 禁止 
某 些 潜在 移动 , 而 其 余 的 则 包含 对 一 个 更 好 解 的 渴望 (aspiration). 在 解 空间 希望 区 
域内 搜索 的 强化 (intensification) 以 及 搜索 候选 解 的 多 样 性 (diversification), 从 而 可 
以 在 更 广泛 的 范围 内 考察 解 空间 . 在 讨论 完 禁忌 算法 后 我 们 再 定义 这 些 术语 . 


3.3.1 ”基本 定义 


禁忌 搜索 是 一 种 迭代 算法 , 其 在 初始 时 刻 t= 0 时 的 候选 解 为 00. 在 第 t 步 
HEAR, 一 个 新 的 候选 解 来 自 9 的 一 个 邻 域 , 记 其 为 0. 以 HO 表示 此 算法 到 
时 刻 上 时 的 历史 记录 . 由 于 仅 某 些 形 式 的 历史 记录 是 此 算法 将 来 运算 所 需要 的 , 故 
HO 是 选择 性 的 历史 记录 . 

不 像 简 单 局 部 搜索 法 , 禁忌 算法 生成 的 当前 候选 解 的 邻 域 依 赖 于 搜索 的 历史 记 
录 , WRA NOO, HO). 另外 , EN (0, HO) 中 确定 最 合适 的 9(11 可 能 不 仅 依 
OF f, 而 且 也 依赖 于 搜索 历史 记录 . 于 是 , 我 们 可 以 用 一 个 扩展 的 目标 函数 fro 
来 评价 邻 域 . 

由 a Bo) 这 一 步 可 由 多 个 属性 (attribute) 来 刻画 . 用 来 描述 移动 或 移动 
类 型 的 属性 有 : 在 此 算法 未 来 迭代 中 的 禁止 、 鼓励 或 不 鼓励 . 表 3.3 左边 一 列 给 出 
了 属性 的 一 些 例子 , 但 它们 不 是 禁忌 算法 所 独 有 的 . 实际 上 , 还 可 用 它们 刻画 任 一 
局 部 搜索 算法 的 移动 . 然而 , 根据 最 近 移动 的 属性 , 禁忌 搜索 很 清晰 地 适应 当前 的 
邻 域 . 

可 以 通过 一 个 回归 模型 的 选择 问题 来 说 明 表 3.3 中 的 属性 . 假设 在 时 刻 t 的 模 
型 中 有 第 i 个 变量 , 则 令 Of = 1, 否则 取 0. 假设 所 有 模型 均 采 用 2- 变化 的 邻 域 ， 
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表 3.3 ”属性 的 例子 . 左边 一 列 给 出 了 遗传 背景 下 的 例子 , 右边 一 列 给 出 了 在 回归 模型 选择 问 
题 中 利用 2- 变化 邻 域 的 相关 内 容 的 属性 


属 性 模型 选择 的 例子 
值 9( 的 一 个 变化 ， 其 属性 可 以 是 此 值 变化 的 Ay: 第 个 变量 是 否 被 加 入 模型 (或 从 模型 里 
起 点 , 也 可 以 是 此 信 变 化 后 所 取 的 值 ER) 
当 aO ol 时 , 交换 ofh 与 of 的 值 Ag: 没有 入 选 的 变量 是 否 替 换 当前 在 模型 中 的 
变量 
一 步 后 f 值 的 变化 : 1(94+D) — FO) As: 一 步 移动 后 AIC 在 减少 


g(9(t+1)) 的 值 , 其 中 9 是 由 其 他 策略 选取 的 函 44: 在 新 模型 中 变量 的 个 数 
数 


一 步 后 9 值 的 变化 : g+) — g(A) As: 对 不 同 的 变 景 选择 准则 的 改变 , 如 Mallows 
的 Cp([369]) 或 调整 的 R?([412]) 


即 两 个 变量 独立 地 加 入 当前 模型 或 从 当前 模型 中 去 掉 . 对 于 在 例 3.2 所 讨论 的 回归 
模型 选择 问题 , 我 们 在 表 3.3 的 右边 一 列 给 出 了 在 2- 变化 邻 域 中 所 列 的 遗传 属性 
的 例子 , 且 它们 分 别 以 A 至 hs RR. 其 他 一 些 有 效 属性 可 在 给 定 的 最 优化 问题 
中 指出 . 

以 4。 表示 第 a 个 属性 . 注意 到 一 个 属性 的 补 (也 即 否 定 ) 仍 是 一 个 属性 , 故 
如 果 4。 对 应 着 交换 oP 与 oY 这 一 属性 , 则 A, 对 应 着 不 交换 这 一 属性 . 

随 着 算法 的 进行 , 第 t 步 移动 的 属性 将 随 着 t 在 变化 , 并 且 候 选 解 的 质量 也 将 
变化 . 可 用 过 去 的 移动 、 目 标 函 数值 和 他 们 属性 的 历史 记录 来 指导 未 来 的 移动 . 一 
个 属性 的 新 新 度 (recency) 是 指 从 最 近 具 有 此 属性 的 某 步 到 现在 的 步 数 .如 果 第 a 
个 属性 出 现在 产生 0 的 移动 , 则 R(4。, HO) = 0; 如 果 第 a 个 属性 最 近 出 现在 产 
Æ ot) 的 移动 , 则 R(Ag, HO) = 1 以 此 类 推 . 

3.3.2 BER 


当 考虑 来 自 9 的 移动 时 , 我 们 要 计算 目标 函数 在 9 的 每 一 个 邻 域内 的 增 
量 . 通常 采用 提供 最 大 增 量 的 邻 域 作 为 OH, 这 即 对 应 着 最 速 上 升 算法 . 

然而 , 如 果 在 oO 的 任 一 邻 域内 目标 函数 值 均 不 增加 时 , 则 通常 选取 OY 为 
使 减少 量 最 小 的 邻 域 , 这 即 为 适度 下 降 法 . 

如 果 仅 用 这 两 个 准则 , 则 算法 将 很 快 被 捕获 且 收 敛 到 一 个 局 部 最 大 值 . 经 一 步 
适度 下 降 后 , 下 一 步 将 回 到 刚 离开 的 山顶 , 且 接 下 来 进行 循环 . 

为 避免 这 样 的 循环 , 在 算法 中 引进 一 个 暂时 限制 移动 的 禁忌 表 (tabu list). 每 次 
只 要 采取 属性 为 Aa 的 移动 , 就 把 A, WA r 步 选 代 的 禁忌 表 中 . 只 要 RA, HO) 
等 于 r 时 , 就 终止 此 禁忌 且 把 A. 从 此 禁忌 表 中 除去 . 于 是 , 在 禁忌 表 中 具有 此 属 
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性 的 移动 被 有 效 地 从 当前 邻 域 中 排除 . 记 修 改 后 的 邻 域 为 
NO, H®) = {0:0 E N(0) 且 没有 0 的 属性 当前 是 被 禁止 的 } (35) 


这 将 预防 取消 7 步 迭 代 的 变化 , 即 阻止 循环. 当 此 禁忌 被 终止 时 ,候选 解 将 有 足够 
的 其 他 方面 发 生变 化 以 至 于 颠倒 移动 不 再 起 反作用 . 注意 , 禁忌 列表 是 一 个 属性 列 
表 , 而 非 移动 列表 . 于 是 , 仅 一 个 禁忌 属性 就 可 以 禁止 所 有 移动 

禁忌 期 限 > 是 一 个 属性 被 禁止 的 迁 代 数 . 它 可 能 是 一 个 固定 数 , 也 可 能 基于 此 
属性 特点 而 系统 或 随机 地 变化 . 对 于 一 个 给 定 的 问题 , 为 防止 循环 , 一 个 精心 选取 
的 禁忌 期 限 应 足够 长 , 但 为 防止 候选 解 的 退化 , 它 也 应 足够 短 ( 当 许 多 个 移动 被 禁 
止 时 , 退化 即 出 现 ). 对 于 多 种 类 型 的 问题 , 建议 取 固 定 的 禁忌 期 限 介 于 7 与 20 之 
间或 介 于 0.5v 与 2VF 之 间 , 其 中 了 是 此 问题 的 大 小 ([227]). 在 许多 问题 中 , 动态 
地 改变 禁忌 期 限 更 有 效 ([229]). 另外 , 对 于 不 同属 性 , 应 用 不 同期 限 经 常 是 很 重要 
的 . 如 果 一 个 属性 的 禁忌 是 限制 多 种 移动 的 , 则 其 对 应 的 禁忌 期 限 应 短 些 以 保证 不 
限制 将 来 的 选取 . 

例 3.4 (遗传 图 , 续 ) 我 们 利用 例 3.1 中 的 遗传 图 问题 来 说 明 禁 忌 的 某 些 应 用 . 

首先 , 监控 交换 属性 . 假设 4。 是 一 交换 属性 . 它 对 应 着 染色 体 上 两 个 特定 位 
AREK. 当 移动 4。 出 现时 , 它 反对 立即 取消 交换 , 即 把 A, 放 入 禁忌 列表 . 搜索 
仅 在 不 逆转 当前 交换 的 移动 中 进行 ， 这 样 的 禁忌 将 通过 避免 很 快 回 到 最 近 搜索 过 
的 区 域 而 提升 搜索 的 多 样 性 . 

其 次 , 考虑 识别 位 点 标号 0; 的 属性 , 此 位 点 满足 d(;, 0,1) 在 新 的 一 步 移动 中 
最 小. 换 句 话说 , 该 属性 将 在 此 新 染色 体 中 确定 两 个 最 近 的 位 点 . 如 果 此 属性 的 补 
在 禁忌 列表 中 , 则 在 7 步 迁 代 中 禁止 移动 到 其 他 位 点 都 接近 的 染色 体 . 这 样 的 禁忌 
将 在 使 9; 和 0;+1 最 接近 的 遗传 图 中 提升 搜索 的 强度 . 

有 时 在 一 个 禁忌 列表 中 交换 属性 本 身 而 不 是 其 补 也 是 合理 的 、 例 如 ,以 Kg) 
表示 一 个 顺序 为 6 的 染色 体 上 相 邻 位 点 间 d(0,, 0,41) 的 平均 值 . 以 属性 Aa RRF 
均 条 件 MLE 图 距离 的 过 大 改变 , 即 如 果 |h(B%+2) — 1(0)| > c, A, 等 于 1, F 
则 等 于 0, 其 中 c 为 给 定 的 阅 值 . 如 果 一 个 移动 的 平均 改变 大 于 c, 则 我 们 在 7 步 迁 
ARORA PUREE WTAE A 本 身 . 这 将 防止 一 段 时 间 内 任 一 剧烈 的 平均 变化 , 从 
而 允许 在 移动 到 很 远 处 之 前 更 好 地 研究 新 近 加 入 的 解 空间 区 域 . 口 
3.3.3 REHU 


有 时 , 由 于 禁止 移动 到 附近 候选 解 而 不 选择 此 移动 可 能 是 一 个 很 差 的 决策 . 在 
这 种 情况 下 , 我 们 需要 一 个 不 顾 此 禁 忌 列 表 的 机 制 . 称 这 样 的 机 制 为 吸 气 准则 (aspir- 
ation criterion). 


如 果 较 以 前 迭代 的 目标 函数 值 , 一 个 禁止 移动 能 提供 更 大 值 , 则 一 个 最 简单 且 
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最 流行 的 吸 气 准 就 是 允许 此 禁忌 移动 . 显然 , 它 仅 关注 到 目前 为 止 的 最 选 解 , 而 不 
管 它 是 否 被 禁止. 由 此 可 以 想象 吸 气 准则 的 用 武之 地 . 例如 , 假设 8 的 两 个 分 量 间 
的 交换 在 禁忌 列表 中 , 且 当 前 每 步 迭 代 的 候选 解 都 渐渐 远离 在 禁忌 开始 时 所 研究 的 
解 集 空间 域 . 于 是 , 现在 的 搜索 将 在 一 个 新 的 解 集 空间 域内 进行 , 此 时 很 有 可 能 通 
过 逆转 禁忌 交换 而 导致 目标 函数 的 激增 . 

另 一 个 有 趣 的 选择 是 通过 影响 吸 气 ， 如 果 一 个 移动 或 属性 与 目标 函数 值 大 的 
改变 相关 联 , 则 称 它 是 有 影响 的 . 现 有 多 种 方法 来 实现 这 种 想法 (227). 为 避免 各 
种 具体 问题 的 不 必要 细节 , 对 于 导致 9 的 一 个 移动 , 我 们 简单 地 记 第 a 个 属性 的 
影响 为 (Ag, HO) 在 许多 组 合 问题 中 , 有 许多 邻近 移动 仅 导 致 目 标 函 数值 很 小 的 
增加 , 当然 也 有 少数 移动 能 导致 较 大 的 改变 . 了 解 这 些 移动 的 属性 将 有 助 于 指导 搜 
R 如 果 在 低 影响 移动 出 现 前 已 有 一 个 高 影响 移动 , 则 通过 影响 吸 气 准则 将 会 不 顾 
及 逆转 一 个 低 影响 移动 的 禁忌 . 这 样 做 的 理由 是 : 当前 高 影响 移动 可 能 把 搜索 转移 
到 解 空间 的 一 个 新 区 域 , 而 在 此 区 域内 进一步 局 部 考察 是 益 的 . 低 影响 移动 的 逆转 
将 可 能 不 包括 循环 , 因为 干预 高 影响 移动 可 能 将 对 部 分 解 空间 的 详细 考察 推移 到 比 
低 影 响 逆 转 所 能 达到 的 更 远 距离 的 地 方 . 

也 可 以 应 用 吸 气 准则 来 鼓励 没有 被 禁止 的 移动 . 例如 , 当 低 影响 移动 提供 给 目 
标 函 数 的 改进 可 忽略 时 , 可 降低 它们 的 影响 权重 并 优先 考虑 高 影响 移动 . 现 有 多 种 
方法 可 用 来 实现 此 想法 : 一 种 方法 就 是 在 fro 中 加 入 一 个 依赖 于 候选 移动 相对 影 
响 的 惩罚 项 或 激励 项 . 


3.3.4 多 样 化 


一 个 属性 的 频率 就 是 自 搜索 开始 后 所 记录 到 的 显示 此 属性 的 移动 数 . 令 C(4。， 
HO) 表示 迄今 为 止 第 a 个 属性 出 现 的 次 数 , 于 是 , 可 用 F(A, HO) 表示 惩罚 那些 
频繁 重复 出 现 的 移动 的 频率 函数 . 一 个 最 直接 的 定义 为 F(Ao, HO) =C(Aa, H)/t, 
其 分 母 可 用 和 、 最 大 值 或 各 种 属性 出 现 的 平均 次 数 来 替代 . 

可 用 基于 属性 频率 的 准则 来 增加 禁忌 搜索 期 间 被 检查 的 候选 解 的 多 样 性 . 

假设 在 整个 历史 过 程 或 最 近 步 移动 期 间 , 每 个 属性 的 频率 都 被 记录 到 ， 注 
意 , 此 频率 可 以 是 两 种 类 型 中 的 一 个 , 且 它 依赖 于 所 考虑 的 属性 . 如 果 一 个 属性 对 
应 着 oO 的 某 一 特征 , 则 其 频率 将 度量 此 特征 在 搜索 期 间 所 考虑 的 候选 解 中 被 看 
到 的 频数 . 称 这 样 的 频率 为 滞留 频率 (residence frequency). 另外 , 如 果 一 个 属性 对 
应 着 从 一 个 候选 解 到 另 一 个 候选 解 这 一 移动 期 间 的 某 一 改变 , 则 称 此 频率 为 转换 频 
Æ (transition frequency). 例如 , 在 例 3.2 中 引入 的 回归 模型 选择 问题 中 , 表示 在 模 
型 中 包含 预测 量 zi 的 属性 即 对 应 着 滞留 频率 , 而 表示 一 个 减少 AIC 移动 的 属性 则 
对 应 着 转换 频率 . 

如 果 属 性 4。 具有 高 滞留 频率 且 最 近 % 步 移动 的 历史 数据 显示 它 几乎 包含 解 
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空间 的 最 优 区 域 , 则 表明 A 可 能 和 高 质量 解 有 关 . 换 句 话说 , 如 果 最 近 历 史 数据 
显示 搜索 是 与 解 空间 中 很 差 解 区 域 相 粘 接 , 则 一 个 高 滞留 频率 可 能 建议 此 属性 与 一 
个 不 好 的 解 相关 联 . 一 般 地 , y > r 是 一 个 中 期 或 长 期 的 记忆 参数 , 它 允 许 累积 附 
加 历史 信息 以 使 未 来 搜索 更 加 多 样 性 . 

如 果 属 性 4。 具 有 高 转换 频率 , 则 此 属性 可 能 被 称 为 填 缝 济 (crack filler). 在 搜 
索 中 为 了 求 得 一 个 很 好 的 解 , 这 样 的 属性 会 经 常 地 被 访问 , 但 很 少 提供 根本 的 改进 
或 改变 ([227]). 此 时 , 该 属性 的 影响 低 . 

一 种 研究 增加 搜索 多 样 性 频率 的 方法 就 是 在 fro 中 加 入 一 个 惩罚 或 激励 函 
数 . 文献 [447] 中 建议 选取 


fw (0) = { £@), 如 果 fo) > fa), 


10°) ~ cFAa, HO), WROD) < J(09)， CO 
其 中 e > 0. IRA AT BRL A AEF, JB ESA EAN 
率 属性 Aa 的 移动 . 可 用 类 似 的 策略 使 上 坡 移动 的 选择 变 得 更 加 多 样 

BR TAE BARRAR IMA E TSR, 研究 分 级 的 禁忌 状态 也 是 可 能 的 ， 即 
一 个 属性 可 能 仅 部 分 被 菊 止 . 建立 分 级 变化 的 禁忌 状态 的 一 种 方式 是 可 利用 概率 林 
SARE. 为 一 个 属性 分 配 一 个 被 禁止 的 概率 ， 其 中 此 概率 要 根据 各 种 因子 包括 村 
BARTIA (227). 
3.3.5 强化 


在 某 些 搜索 中 , 强化 在 解 空间 某 特定 区 域 的 搜索 可 能 是 有 益 的 , 也 可 利用 频率 
以 指导 这 样 的 强化 . 假设 把 最 近 v 步 移动 的 属性 频率 列 成 一 个 表 , 且 保留 其 对 应 的 
目标 函数 值 . 通过 检查 这 些 数据 , 可 以 识别 一 个 好 的 候选 解 所 具有 的 关键 属性 . 在 
fno 中 应 奖赏 保有 这 种 特征 的 移动 , 而 远离 这 种 特征 的 移动 应 得 到 乱 罚 ， 时 间 跨 
度 v > r 把 长 期 记忆 进行 了 参数 化 以 强化 在 解 空间 有 希望 区 域 的 搜索 . 
3.3.6 ”一 种 综合 的 禁忌 算法 


下 面 我 们 总 结 一 种 相当 一 般 的 具有 如 上 所 述 诸 多 特征 的 禁忌 算法 ， 在 对 指定 
问题 的 属性 列表 进行 初始 化 及 识别 后 , 此 算法 如 下 进行 . 
(1) 定义 一 个 依赖 于 f 的 扩展 目标 函数 fro, 它 也 可 能 依赖 于 
(a) 基于 频率 的 惩罚 或 激励 以 提升 多 样 化 ; 
(b) 基于 频率 的 惩罚 或 激励 以 提升 强化 ; 
(2) 确定 0 的 邻 域 , 即 W(6O) 的 元 素 ; 
(3) 按照 由 fyo 计算 而 得 的 改进 减少 量 , 求 邻 域 的 秩 ; 
(4) 选取 秩 最 大 的 邻 域 ; 
(5) 此 邻 域 是 否 在 当前 的 禁忌 列表 中 ? 如 果 不 在 , 则 转 至 第 8 步 ; 
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(6) 此 邻 域 是 否 通过 一 个 吸 气 准则 ? 如 果 通 过 , 则 转 至 第 8 步 ; 

(7) 如 果 0° 的 所 有 邻 域 都 考虑 过 了 , 且 没 有 一 个 被 所 采用 作为 0, 则 停 
止 . 否则 , 选择 秩 次 最 高 的 邻 域 且 转 至 第 5 步 ; 

(8) 采用 此 解 作 为 att), 

(9) 通过 建立 基于 当前 移动 的 新 禁忌 或 通过 删除 过 期 的 禁忌 来 更 新 禁忌 列表 ; 

(10) 符合 一 个 停止 准则 吗 ? 如 果 符合 , 则 停止, 否则 , 增加 + 上 并 转 至 第 1 步 ， 

当 和 迭代 次 数 达到 一 个 最 大 值 时 , 一 个 明智 的 选择 就 是 停止 欠 代 , 且 把 得 到 的 最 好 候 
选 解 作 为 最 终 解 . 可 以 把 搜索 资源 分 解 成 若干 个 以 便 在 初 值 为 随机 的 集合 中 分 别 
进行 搜索 , 而 不 必 把 全 部 资源 都 集中 在 对 一 个 单一 初 值 的 搜索 中 . 如 从 马 氏 链 角 度 
分 析 禁 忌 搜 索 , 则 可 能 会 得 到 此 方法 的 极限 收敛 的 结果 ([167]). 

例 3.5 (棒球 运动 员 薪水 , 续 ) 在 例 3.3 中 一 个 简单 禁忌 搜索 被 用 来 解决 回归 
模拟 棒球 数据 的 变量 选择 问题 . 属性 仅 显 示 模型 是 否 包含 所 考查 的 预测 变量 . 对 于 
7 = 5 的 禁忌 是 由 逆转 预测 变量 进入 或 退出 的 移动 决定 的 , 且 从 随机 初 值 开始 此 算 
法 仅 运行 75 步 . 如 果 另 一 个 禁忌 移动 的 目标 函数 值 大 于 以 前 最 好 的 值 , 则 吸 气 准 
则 允许 它 移动 . 

图 3.4 给 出 了 由 此 禁忌 搜索 得 到 的 候选 解 序 列 的 AIC 值 . AIC 值 很 快 地 得 到 
了 改进 , 且 最 优 值 -416.95 由 包括 预测 变量 2, 3, 6, 8, 10, 13, 14, 15, 16, 24, 25 和 
26 的 模型 在 如 下 两 种 情况 得 到 : 44 RARE 66 次 和 迭代. 此 结果 与 应 用 随机 初 值 局 
部 搜索 法 得 到 的 最 优 模型 相同 ( 表 3.2). 口 
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图 3.4 例 3.5 的 禁忌 搜索 结果 


3.4 模拟 退火 


由 于 模拟 退火 的 一 般 性 以 及 其 最 简单 形式 易于 实现 , 它 在 组 合 优化 中 是 一 种 很 
流行 的 方法 . 另外 , 其 极限 行为 也 得 到 了 很 好 的 研究 . 然而 , 其 极限 行为 在 实际 中 不 
HI, 且 其 收敛 速度 可 能 相当 慢 . 为 充分 地 改进 其 表现 , 需要 进行 复杂 深奥 的 修 
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补 . 关于 模拟 退火 的 有 用 综述 请 参见 [69, 543]. 

退火 是 将 一 个 固体 加 热 后 再 慢 馒 冷却 的 过 程 . 当 一 个 固体 在 一 定 压 力 下 被 加 
热 时 , 其 内 部 能 量 在 增加 且 分 子 随机 运动 . 随后 , 如 果 此 固体 被 慢 慢 冷却 , 则 其 热能 
一 般 均 慢 慢 地 减少 , 但 有 时 也 以 Boltzmann 概率 随机 地 增加 , 即 在 温度 7, 能 量 增 
加 幅度 为 AE RERA exp{—AB/kr}, 其 中 大 是 Boltzmann 常数 . 如 果 冷 却 
相当 慢 且 降温 足够 大 , 则 最 终 状 态 是 无 压力 下 的 , 且 所 有 分 子 都 按 最 小 势能 形式 排 
列 . 


为 与 上 述 物理 过 程 的 动机 相 一 致 , 本 节 将 提出 一 个 求 最 小 值 的 优化 问题 : 在 
66 @ 内 求 1(6) 的 最 小 值 . 于是, 可 用 类 似 于 上 述 物理 冷却 过 程 来 求解 一 个 组 合 优 
化 问题 ([111, 330]). 对 于 模拟 退火 算法 , 6 对 应 着 材料 的 状态 ,7(6) 对 应 着 其 能 量 
水 平 , 最 优 解 对 应 着 具有 最 小 能 量 的 9. 当前 状态 间 的 随机 转换 , 即 由 0 到 otto 
的 移动 由 上 述 给 出 的 Boltzmann 分 布 决定 , 而 此 分 布依 赖 于 称 为 温度 的 参数 ， 当 
温度 高 时 , 更 可 能 接受 上 坡 移动 , 即 向 更 高 能 量 的 状态 移动 , 这 将 阻止 算法 收敛 到 
已 经 找到 的 第 一 个 局 部 最 小 值 . 如 果 没 有 适当 选取 所 考察 的 候选 解 空 间 , 则 此 局 部 
最 小 值 可 能 是 早期 不 成 熟 的 ， 随 着 搜索 的 继续 , 温度 在 降低 . 由 于 仅 有 少数 上 坡 移 
动 被 允许 , 故 它 将 愈加 强迫 搜索 集中 在 当前 的 局 部 最 小 值 . 如 果 适 当 确 定 冷却 进度 
(cooling schedule), 则 算法 就 很 有 希望 收敛 到 整体 最 小 值 . 

模拟 退火 算法 是 一 个 迭代 算法 , 时 刻 t = 0 的 初 值 为 0O, 温度 为 ro. Ht 表 
WER, 此 算法 在 几 个 阶段 内 运行 , 且 阶段 标号 为 7 = 0,1,2,…, 而 每 一 个 阶段 均 
含有 多 步 迭 代 . 第 j 个 阶段 的 长 度 为 mj. 每 次 迭代 如 下 进行 : 

(1) 在 0 的 邻 域 (0) 内 , 根据 提案 密度 9 (0) 选取 候选 解 9"; 

(2) 随机 决定 是 否 采用 9* 作为 下 一 个 候选 解 或 还 是 仍 用 当前 解 . 特别 地 , 以 概率 


min (1, exp {[7(6) — £(6*)1/73}) 


Hy ott) — 9" 否则 令 ott = 9, 

(3) 重复 第 1, 2 步 mj 次 ; 

(4) 增加 ; 且 更 新 万 = a(7;-1),mj = B(mj-1), 并 转 至 第 1 步 . 
如 果 根 据 总 迭代 次 数 的 限制 或 事先 给 定 的 r 和 mj, 此 算法 不 能 停止 , 则 人 们 可 以 
绝对 或 相对 收敛 准则 来 控制 它 ( 见 第 2 章 ). 然而 , 停止 准则 多 由 最 小 温度 来 表示 . 
算法 停止 后 , 所 求 得 的 最 优 候选 解 即 是 估计 的 最 小 值 . 

函数 a 应 使 温度 慢 馒 递减 至 0. 在 每 个 温度 mj 中 的 迭代 次 数 应 较 大 且 关 于 j 
单 增 . 理想 的 函数 8 应 使 mj 为 p 的 指数 , 但 在 实际 中 为 达到 容许 的 计算 速度 进行 
某 些 折 中 是 必要 的 . 

尽管 当 一 个 候选 解 优 于 当前 解 时 它 总 被 采用 , 但 注意 当 它 不 好 时 , 它 也 有 一 定 
的 概率 被 采用 . 在 这 种 意义 下 , 模拟 退火 算法 是 一 种 随机 的 下 降 算法 . 此 随机 性 将 
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使 模拟 退火 算法 有 时 能 逃脱 一 个 没有 竞争 力 的 局 部 极 小 值 . 
3.4.1 几 个 实际 问题 
1.， 邻 域 和 提案 密度 


选取 邻 域 的 策略 可 随 指定 问题 在 变化 , 但 最 好 的 邻 域 一 般 都 小 且 易 于 计算 . 

考虑 旅行 商 问题 . 把 城市 标号 为 1,2,… ,p, 任 一 次 旅行 9 就 表示 这 些 整 数 间 
的 一 个 排列 . 所 有 城市 都 以 这 种 顺序 被 连接 起 来 , 而 最 终 访问 的 城市 和 旅行 开始 时 
出 发 城市 间 的 连接 为 男 一 种 额外 连接 可 以 通过 去 掉 两 个 不 相 邻 连接 且 重 接 此 次 
旅行 来 生成 9 的 一 个 邻 域 . 此 时 , 通过 重 接 来 得 到 正确 旅行 的 方式 仅 有 一 种 : 旅行 
中 的 一 段 是 可 颠倒 的 . 如 旅行 143256 就 是 旅行 '123456' 的 一 个 邻 域 . 由 于 两 个 连 
接 被 改变 , 故 生成 这 样 邻 域 的 过 程 就 是 一 个 2- 变化 , 它 生 成 了 一 个 2- 邻 域 . 任 一 个 
旅行 都 有 plp - 3)/2 个 唯一 的 2- 变化 邻 域 不 同 于 6 本 身 . 此 邻 域 比 完全 解 空间 中 
的 (p — 1)!/2 个 旅行 要 小 许多 . 

选取 邻 域 结构 的 最 关键 一 点 就 是 允许 在 © 中 的 所 有 解 都 能 沟通 (communi- 
cate). 为 了 使 0; 与 9; 沟通 , 就 必须 找到 一 个 有 限 解 序列 91,.… ,0k, 使 得 0, © 
N(0;),92 € N(01),… ,Ok E N(Ox-1) 和 Oj < (Ox). 对 于 旅行 商 问 题 , 上 面 提 到 
的 2- 邻 域 允许 0; 和 9; 间 的 沟通 . 

最 常用 的 提案 密度 g 中 (.|6 中 ) 是 离散 均匀 , 此 时 的 候选 解 为 来 自 (0) 的 完 
全 随机 样本 这 样 的 选取 对 计算 速度 和 简单 化 有 好 处 .另外 , 也 有 许多 其 他 更 好 的 
方法 ([246, 247, 560]). 

快速 更 新 目标 函数 是 加 速 模拟 退火 运行 速度 的 最 重要 策略 . 在 旅行 商 问题 中 ， 
2- 邻 域 的 随机 抽样 等 价 于 从 当前 旅行 排列 中 选取 两 个 整数 . 对 于 旅行 商 问题 也 要 
注意 到 , 当 (0) 已 求 得 时 , 在 OM 的 2 邻 域 中 可 以 有 效 地 算得 fo"), 此 时 , 新 
旅行 长 度 等 于 原 旅行 长 度 减 去 两 个 间断 连接 间 的 旅行 距离 , 再 加 上 两 个 新 连接 间 旅 
行 的 距离 . 其 计算 时 间 不 依赖 于 问题 大 小 p. 
2， 冷 却 进度 与 收敛 

阶段 长 度 和 温度 的 序列 称 为 冷却 进度 . 理想 的 冷却 进度 应 比较 慢 . 

模拟 退火 的 极限 行为 来 自 第 1 章 介 绍 的 马 氏 链 理论 . 可 以 把 模拟 退火 看 成 为 
生成 一 列 齐 次 马 氏 链 (每 个 温度 一 列 ) 或 一 个 非 齐 次 马 氏 链 (温度 在 转换 间 递 减 ), 
尽管 这 种 看 法 将 导致 定义 极限 行为 方法 的 不 同 , 但 二 者 的 结论 均 为 : 所 得 到 的 极限 
分 布 的 支撑 集 仅 在 整体 极 小 值 集合 上 . 

为 理解 冷却 为 什么 可 以 导致 算法 收敛 到 渴望 的 整体 极 小 值 , 首先 考虑 固定 温度 
为 r, 且 进 一 步 假设 对 于 © 中 的 任 一 对 解 9; 和 0;, 6; RA NO) 的 概率 与 0; 
来 自 N(9i) 的 概率 相同 . 此 时 , 由 模拟 退火 生成 的 序列 0O 就 是 一 个 平稳 分 布 为 
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7, (8) x exp{—f(8)/7} 的 马 氏 链 . 这 就 是 说 ，lim Plo = 6] = rr(9). 产生 随机 数 
序列 的 这 种 方法 称 为 Metropolis 算法 , 我 们 将 在 71 节 讨论 它 . 

在 温度 减 小 之 前 , 我 们 通常 都 将 在 此 固定 温度 上 运行 此 链 很 长 时 间 以 使 马 氏 链 
接近 其 平稳 分 布 . 

假设 共有 M 个 整体 最 小 值 且 记 此 解 集 为 M, fE @ 上 的 最 小 值 为 fmin W 
对 于 固定 的 r, 此 链 的 平稳 分 布 为 

=- exp{ 一 [7(6i) 一 fmin]/7} 
TO= TEES em ep O) Sal 

由 于 当 了 一 0 时 , WR ie M, 则 exp{—[f(@:) - fmin]/7} 的 极限 为 0; 否则 为 

1. 这 样 ， 


Vace. (3.7) 


lim rr(0:) = 


{ 1/M, MRie mM, (3.8) 


0, 否则 . 
上 述 结论 的 数学 证 明 见 [61, 543]. 

另外 , 也 可 能 把 冷却 进度 与 最 终 解 的 质量 范围 联系 起 来 . 如 果 人 们 希望 任 一 次 
迭代 的 平均 结果 与 整体 最 小 值 的 差 超过 e 的 概率 不 大 于 5, 则 冷却 应 一 直到 r < 
€/log{(N — 1)/6}, 其 中 N 是 日 中 点 的 个 数 ([364]). 换 名 话说, 这 样 的 r 将 保证 
最 终 平衡 态 的 马 氏 链 结构 满足 


P |/(0®) > fmin + <ô. 


Hajek 证 明 : 如 果 邻 域 互通 且 最 深 的 局 部 最 小 值 ( 非 整 体 最 小 值 ) 的 深度 是 c, 
WH r= c/log{1 + i} 给 定 的 冷却 进度 将 保证 渐 近 收敛 , 其 中 ;表示 迭代 ([255]). 
定义 一 个 局 部 最 小 值 的 深度 为 目标 函数 的 最 小 增加 量 , 此 增加 量 能 使 移动 逃脱 此 局 
部 最 小 值 而 进入 另 一 最 小 值 流域 . 然而 , 为 以 高 概率 发 现 At 中 至 少 一 个 元 素 所 需 
迭代 次 数 的 数学 范围 往往 超出 © 本 身 的 大 小 . 此 时 , 模拟 退火 不 可 能 比 穷 举 搜索 
更 快 地 求 得 整体 最 小 值 ([28]). 

如 果 人 们 希望 在 降低 温度 前 的 每 一 个 温度 点 上 , 由 模拟 退火 产生 的 马 氏 链 近 似 
其 平稳 分 布 , 则 理想 的 运行 长 度 应 至 少 为 解 空间 大 小 的 二 次 函数 (1), 而 解 空间 大 
小 本 身 多 是 问题 大 小 的 指数 . 显然 , 如 果 要 求 模拟 退火 的 迭代 次 数 少 于 穷 举 搜索 的 
话 , 则 必须 选取 短 得 多 的 长 度 . 

在 实际 中 , 人 们 尝试 过 许多 冷却 进度 ([543])， 回 想 一 下 在 第 ; 阶段 的 温度 是 
Tj = Q(T7j-1), 第 ;阶段 的 迭代 次 数 是 m; = 8(mj_1). 一 种 常用 的 方法 是 对 所 有 的 j， 
取 mj = 1, 且 根据 a(7j-1) = oh, 较 慢 地 降低 温度 , 其 中 a 是 一 个 小 量 . 第 二 种 
选择 是 取 a(7j_1) = arj-1, 其 中 a < 1( 一 般 地, a > 0.9). 此 时 , 人 们 可 以 在 降低 温度 
时 增加 阶段 长 度 . 例如 , 考虑 bmj) = bmj-1(b > 1) R B(m;-1) = b+m;_1(b > 0). 
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第 三 种 进度 取 al) = pestis 其 中 s?，， 是 当前 温度 的 平均 目标 
函数 损失 减 去 当前 温度 的 均 方 损失 的 平方 , r 是 一 个 小 的 实数 ([1]). 实际 中 很 少 应 
用 Hajek 建议 的 温度 进度 , 因为 其 计算 速度 慢 且 c 的 确定 比较 困难 (关于 c 的 过 大 
的 猜测 将 进一步 降低 算法 速度 ). 

多 数 实 际 工作 者 都 要 求 通过 多 次 试验 以 求 取 合适 的 初始 参数 值 (如 ro 和 mo) 
和 所 用 的 进度 值 (如 a,b 和 7). 虽然 初始 温度 m 的 选取 常常 依赖 于 研究 的 问题 , 但 
我 们 给 出 如 下 的 一 般 指 导 方 针 . 有 用 的 策略 是 选取 一 个 正 数 m 使 得 对 于 © 中 的 
任 一 对 解 9; 和 0;, exp{[f(0;) 一 了 (0;)]/To} 接近 于 1. 这 样 选取 的 合理 性 在 于 : 在 
算法 迭代 早期 , 以 一 定 合理 的 机 会 访问 解 空间 中 的 任 一 点 . 类 似 地 , 大 的 mj 可 得 
到 更 精确 的 解 , 但 会 引起 较 长 的 计算 时 间 . 作为 一 般 经 验 , 大 的 温度 降低 将 增长 降 
温 后 的 运算 时 间 . 最 后 , 大 量 证 据 建 议长 时 间 在 高 温度 下 运行 模拟 退火 是 非常 不 必 
要 的 . 在 许多 问题 中 , 局 部 最 小 值 间 的 屏障 是 相当 适度 的 , 以 至 于 用 很 低 的 温度 就 
可 以 跃 过 这 些 屏障 . 于 是 , 一 个 好 的 冷却 进度 首先 就 要 快速 降低 其 温度 . 

Gl 3.6 (棒球 运动 员 薪 水 , 续 ) 为 应 用 模拟 退火 对 例 3.3 中 引进 的 棒球 运动 员 
薪水 的 回归 问题 中 通过 AIC 进行 变量 选择 , 我 们 必须 确定 一 个 邻 域 结 构 、 提 案 密 
度 和 温度 进度 . 通过 对 当前 模型 加 入 一 个 或 删除 一 个 预测 值 而 生成 的 1- 变化 邻 域 
是 最 简单 的 邻 域 . 我 们 给 邻 域 中 每 一 个 候选 解 指定 相同 的 概率 . 冷却 进度 有 15 个 
阶段 : 前 5 个 阶段 的 长 度 为 60, 中 间 5 个 阶段 的 长 度 为 120, 最 后 5 个 阶段 的 长 度 
为 220. 每 一 阶段 后 , 温度 按照 a(7;_1) = 0.971 递减 . 

图 3.5 给 出 了 针对 两 个 不 同 的 rm 由 模拟 退火 产生 的 候选 解 的 AIC 值 . 最 下 边 
的 曲线 对 应 着 m = 1. 此 时 , 因为 低温 给 予 上 坡 移动 以 较 小 的 容忍 , 故 模拟 退火 将 
在 不 同时 期 固定 在 不 同 的 特定 候选 解 上 . 图 中 显示 , 此 算法 很 快 找到 一 个 AIC 很 小 
的 好 的 候选 解 , 且 经 常 固定 在 此 . 然而 , 在 其 他 情况 下 (如 对 于 多 峰 的 目标 函数 ), 这 
样 的 固定 将 导致 算法 落 入 远离 整体 最 小 值 的 一 个 区 域 . 在 第 二 个 运行 中 m = 10( 上 
面 的 实 线 ), 它 混合 了 许多 个 上 坡 移动 . 点 线 及 右 侧 的 纵 坐 标 对 应 着 m = 1 的 温 
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图 3.5 ”对 于 例 3.6 中 的 回归 模型 , 利用 两 个 模拟 退火 方法 求 取 AIC 最 小 值 的 结果 , 最 下 面 曲 
线 的 温度 由 点 线 及 右边 的 纵 坐 标 给 出 
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度 进度 . 对 于 较 高 温度 , 两 次 运算 均 展示 出 较 大 的 混合 . 4m = 1 时 , 最 优 模 型 首 
先 在 第 1 419 步 找到 并 且 控制 着 以 后 的 模型 .此 模型 的 AIC 值 为 ~416.95, 且 与 
ER 3.2 中 随机 初 值 的 局 部 搜索 法 的 最 优 模型 相 匹配 . 当 mm = 10 时 , 最 优 模型 的 
AIC 值 为 -416.94, 且 由 S-Plus 方法 得 到 的 与 之 匹配 的 模型 见 表 3.2. 此 模型 仅 在 第 
1718 步 移动 得 到 . o 


3.4.2 ”强化 


关于 模拟 退火 方法 , 现 有 多 种 改进 其 表现 的 变更 . 大 致 对 应 于 基本 算法 中 的 某 
些 步骤 , 我 们 在 此 罗列 几 个 想法 . 

一 个 启动 模拟 退火 最 简单 的 方法 就 是 在 任何 地 方 都 启动 一 次 .研究 多 个 随机 
初 值 的 策略 将 有 双重 好 处 : 一 是 可 能 找到 一 个 更 好 的 候选 解 , 二 是 确认 收敛 到 一 个 
已 经 找到 的 特定 最 优 值 . 可 用 分 层 初 值 集 来 替代 纯粹 随机 初 值 , 且 在 选取 初 值 时 先 
做 策略 上 的 预 处 理 以 便 比 简单 随机 初 值 法 取得 最 小 值 的 可 能 性 更 大 . 如 果 这 种 策略 
有 用 的 话 , 则 它 定 有 高 付出 , 如 模拟 退火 算法 的 收敛 速度 一 般 较 慢 . 在 某 些 情况 下 ， 
从 运行 时 间 的 长 短 上 看 , 由 多 个 不 同 随机 初 值 而 导致 的 额外 迭代 仍 可 能 优 于 应 用 较 
长 阶段 和 较 慢 冷却 进度 的 单一 运行 . 

解 空间 @ 可 能 包括 关于 9 的 约束 . 例如 , 在 例 3.1 中 引进 的 遗传 图 问题 中 , 当 
A p 个 标号 时 , 9 必须 是 整数 1,2,… ,p 的 一 个 排列 . 当 生 成 邻 域 的 过 程 得 到 一 个 
违反 这 些 约束 的 解 时 , 就 需要 消耗 更 多 时 间 以 修复 候选 解 或 重新 从 .N(9 中 ) 中 抽样 
直至 求 得 正确 的 候选 解 . 男 一 种 方法 是 放松 这 些 约束 , 并 且 把 惩罚 引入 f 以 惩罚 无 
效 解 . 这 样 的 话 , 算法 能 够 阻止 访问 无 效 解 且 没有 花费 大 量 时 间 在 强迫 执行 这 些 约 
RE. 

在 基本 算法 中 , 邻 域 的 定义 是 静态 的 且 提 案 分 布 与 迭代 无 关 . 在 每 一 次 迭代 中 ， 
对 邻 域 进行 自 适 应 限制 有 时 能 改进 此 算法 . 例如 , 为 避免 生成 许多 无 用 的 相隔 很 远 
的 候选 解 , 让 邻 域 的 大 小 随 着 时 间 的 增加 而 缩短 是 有 益 的 , 且 这 些 候选 解 很 可 能 在 
低温 下 被 拒绝 . 换 句 话说 , 当 用 惩罚 来 替换 约束 时 , 它 可 利于 邻 域 仅 包含 那些 能 降 
低 或 消除 在 当前 9 中 约束 的 解 . 

如 果 能 很 快 地 求 得 f 在 新 候选 解 处 的 值 则 会 很 方便 . 我 们 在 前 面 已 经 提 过 , 有 
时 能 通过 邻 域 的 定义 实现 这 一 点 , 就 如 在 旅行 商 问题 中 , 一 个 2- 邻 域 策略 有 利于 f 
的 简便 更 新 . 对 于 给 定 的 问题 , 经 常 对 f 做 简单 的 近似 . 不 止 一 位 作者 建议 监测 最 
近 的 迭代 且 在 f 中 引入 惩罚 项 以 阻止 再 访问 那些 刚 访问 过 的 状态 ([176]). 

下 面 考虑 3.4 节 中 标准 模拟 退火 算法 第 二 步 的 接受 概率 . 表达 式 exp{[ f(a) — 
FOr) 来 自 统计 热力 学 中 的 Boltzmann 分 布 . 不 过 , 也 可 以 应 用 其 他 分 布 . 由 关 
于 Boltzmann 分 布 的 Taylor 线性 展开 知 , 可 用 min {1,1 + (r0) = KEN )} 
作为 接受 概率 ([309]). 当 为 避免 过 小 的 移动 而 鼓励 远离 局 部 最 小 值 的 中 等 移动 时 . 
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在 某 些 问题 中 ([146]) 建议 取 接 受 概率 为 
min {1,exp { [e+ f(0®) 一 GR) /5}}, 


其 中 c>0. 

一 般 地 , 只 要 包括 有 用 的 温度 范围 且 温 度 在 此 范围 内 以 大 致 相同 的 速度 来 回 移 
动 , 而 在 每 一 个 温度 (特别 是 低温 ) 处 都 花费 足够 的 时 间 , 则 没有 证 据 表 明 冷 却 进度 
形状 (线性 , 多 项 式 , 指数 ) 有 很 大 的 影响 ([146]). 那些 允许 零星 的 、 系 统 的 或 交互 
式 的 增加 温度 以 防止 固定 在 低温 处 局 部 最 小 值 的 再 加 热 方 法 可 能 很 有 效 ([146, 226, 
330]). 

当 完 成 模拟 退火 后 , 人 们 可 以 取出 一 次 或 多 次 运行 的 一 个 最 终结 果 , 之 后 应 用 
下 降 算 法 对 它 进行 加 工 打磨 . 事实 上 , 人 们 可 以 用 相同 的 方式 再 加 工 某 特定 场合 得 
到 的 结果 , 而 不 必 一 直 等 到 模拟 退火 算法 结束 . 


3.5 遗传 算法 


退火 并 不 是 唯一 的 用 比喻 来 解决 优化 问题 而 成 功 开发 的 自然 过 程 ， 遗传 算法 
(Genetic algorithm) 就 模仿 了 达尔 文 的 自然 选择 过 程 . 一 个 极 大 化 问题 的 候选 解 被 
看 成 是 一 个 用 遗传 密码 表示 的 生物 有 机 体 . 一 个 生物 体 的 适宜 度 (fitness) 类 似 于 候 
选 解 的 质量 .在 高 适宜 度 生物 体 间 的 培育 可 为 后 代 得 到 渴望 的 属性 提供 更 高 的 机 
会 , 而 在 低 适 宜 度 ( 且 少 有 遗传 突变 ) 生物 体 间 的 培育 将 保证 种 群 的 多 样 性 .随时 
间 的 推移 , 种 群 中 的 生物 体 可 能 随 着 进化 而 增加 适宜 度 , 因此 , 可 为 优化 问题 提供 
一 组 越 来 越 好 的 候选 解 . 遗传 算法 的 开创 性 工作 由 Holland 给 出 ([291]), 其 他 有 益 
的 参考 文献 包括 [15, 119, 175, 231, 395, 448, 450, 562). 

现在 我 们 回 到 最 大 值 优 化 问题 的 标准 描述 上 , 在 此 我 们 要 寻找 f(9) 关于 ge O 
中 的 最 大 值 . 在 遗传 算法 的 多 个 统计 应 用 中 , f 多 是 联合 对 数 偏 似 然 函数 . 
3.5.1 ”定义 和 典 则 算法 
1 基本 定义 

在 前 面 的 例 3.1 中 已 引入 了 某 些 遗 传 学 术语 , 本 节 我 们 再 给 出 一 些 进一步 研究 
遗传 算法 所 需要 的 其 他 术语 . 

在 一 个 遗传 算法 中 , 每 个 候选 解 对 应 着 一 个 个 体 (individual) 或 生物 
体 (organism), 且 每 个 生物 体 完全 由 其 遗传 密码 决定 , 所 有 生物 体 均 假 设 有 一 个 染 
色 体 (chromosome). 一 个 染色 体 是 一 个 C 个 符号 的 序列 , 其 中 每 一 个 均 为 事先 确定 
的 字母 表 中 的 一 个 . 最 基本 的 字母 表 是 一 个 二 元 表 {0,1}, 此 时 一 个 长 度 C = 9 的 
染色 体 可 能 为 100110001’. 染色 体 中 的 C 个 元 素 就 是 基因 (gene). 可 存储 在 一 个 
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基因 中 的 值 ( 即 字母 表 中 的 元 素 ) 就 是 等 位 基因 (allele)， 一 个 基因 在 染色 体 中 的 位 
置 就 是 位 点 (locus). 

编码 在 个 体 染色 体内 的 信息 就 是 它 的 基因 型 (genetype). 我 们 以 0 表示 一 个 
染色 体 或 它 的 基因 型 . 基因 型 在 生物 体 中 的 表达 式 本 身 就 是 它 的 显 型 (phenotype). 
对 于 优化 问题 , 显 型 是 候选 解 , 而 基本 因 是 编码 : 每 个 基因 型 3 利用 选 定 的 位 点 字 
母 对 显 型 9 进行 编码 . 

遗传 算法 是 一 种 迭代 算法 , 以 t 表示 其 迭代 . 不 像 本 章 前 面 讨论 的 方法 , 遗传 
算法 同时 跟踪 多 个 候选 解 . 假设 第 t 代 有 P 个 生物 体 , oP, 0, WER t RA 
小 为 P 的 种 群 对 应 着 一 个 候选 解 集 0(?,… , 98. 

达尔 文 自然 选择 偏爱 那些 具有 高 适宜 度 的 生物 体 . 一 个 生物 体 9 的 适宜 度 依 
赖 于 其 相应 的 £0). 一 个 高 质量 的 候选 解 具有 大 的 目标 函数 值 和 高 的 适宜 度 . 随 
着 世代 繁衍 , 如 果 精 心 选取 父 代 , 则 培育 后 的 生物 体 将 从 其 父 代 那里 遗传 少量 具有 
高 适宜 度 的 遗传 密码 . 一 个 子 代 (offspring) 就 是 一 个 新 的 生物 体 , 它 属于 第 (t + 1) 
代 而 用 来 替代 第 t 代 的 某 一 个 . 子 代 的 染色 体 由 父 代 属于 第 t 代 的 两 个 染色 体 所 决 
定 . 

下 面 以 带 有 9 个 预测 变量 的 回归 模型 选择 问题 来 说 明 上 述 某 些 概念 , 且 假设 
在 任 一 模型 中 均 有 截 距 项 . 则 任 一 模型 中 的 基因 型 可 以 写成 一 个 长 度 为 9 的 染色 
体 . 例如 , 染色 体 oO =100110001 就 是 一 个 基因 型 , 它 对 应 着 仅 包含 截 距 项 和 预测 
变量 1, 4, 5, 9 等 几 个 参数 的 模型. 

另 一 个 基因 型 是 39='110100110'， 注 意 到 940 与 99) 有 几 个 基因 相同 . 基 

的 任 一 子 集 就 是 一 个 模式 (schema)j， 在 这 个 例子 中 ,上 述 两 个 染色 体 共 享 模式 
LeO Le te, 其 中 Se 是 一 个 通配符 : 它 表 示 可 忽略 在 此 位 点 的 等 位 基因 . (这 两 个 
染色 体 也 共享 模式 '**01*x w, :ly01+0**+ t 及 其 他 .) 模式 的 重要 性 在 于 将 一 定 的 
父 代 信息 编码 后 作为 一 个 单位 传递 给 子 代 . 如 果 一 个 模式 与 一 个 具有 大 的 目标 函数 
值 的 显 型 特征 相关 联 , 则 此 模式 在 后 代 个 体 中 的 遗传 将 提升 最 优化 . 


2 选择 机 制 与 遗传 算 子 


培育 将 导致 多 个 基因 改变 . 选择 机 制 就 是 选择 用 来 产生 子 代 的 父 代 的 一 个 过 
程 . 一 个 最 简单 的 方法 就 是 以 一 个 正比 例 于 适宜 度 的 概率 选择 一 个 父 代 , 而 完全 随 
机 地 选择 另 一 个 父 代 . 另 一 方法 则 是 以 正比 例 于 适宜 度 的 概率 随机 地 选择 每 一 个 父 
代 . 某 些 最 常用 的 选择 机 制 将 在 3.5.2 节 第 2 部 分 讨论 . 

当 为 进行 培育 而 从 第 t 代 中 选取 两 个 父 代 后 , 以 某 一 方式 合成 它们 的 染色 体 以 
使 来 自 每 一 父 代 的 模式 遗传 给 子 代 , 这 些 子 代 即 为 第 t+ 1 代 的 一 部 分 . 由 选 定 父 
代 染 色 体 得 到 子 代 染 色 体 的 方法 就 称 为 遗传 算 子 (genetic operator). 

一 个 基本 的 遗传 算 子 就 是 交叉 互 兵 (crossover). 一 个 最 简单 的 交叉 互 换 方法 就 
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是 在 两 个 相 邻 位 点 间 选 择 一 个 随机 位 置 并 且 在 此 位 置 分 开 两 个 父 代 染 色 体 . 把 来 自 
一 个 父 代 的 左 染色 体 片段 与 来 自 另 一 个 父 代 右 染色 体 片段 相 夭 合 以 合成 一 个 子 代 
染色 体 . 也 可 黏合 剩 下 的 两 个 片段 以 合成 第 二 个 子 代 或 把 它们 丢弃 . 例如 , 假设 两 
个 父 代 是 '100110001 和 ‘110100110. 如 果 随 机 分 裂 点 介 于 第 三 个 与 第 四 个 位 点 ， 
则 '100100110' 45 ‘110110001 均 是 潜在 的 子 代 . 注意 到 在 这 个 例子 中 , 两 个 子 代 均 
遗传 模式 '1*01* * ex, 交叉 互 换 是 遗传 算法 的 关键 就 是 它 允 许 两 个 候选 解 好 的 特 
征 相互 结合 . 某 些 更 复杂 的 交叉 互 换算 子 将 在 3.5.2 节 第 3 部 分 讨论 . 

突变 (mutation) 是 另 一 个 重要 的 遗传 算 子 . 突变 通过 在 某 些 位 点 随机 引进 一 
个 或 多 个 在 任 一 个 父 代 染 色 体 相应 位 点 均 没有 出 现 的 等 位 基因 而 改变 子 代 的 染色 
体 . 例如 , 如 果 由 上 面 的 两 个 父 代 通 过 交叉 互 换 得 到 100100110, 则 一 序列 突变 后 
可 能 得 到 101100110. 注意 到 在 两 个 父 代 中 , 其 第 三 个 基因 都 是 0, 则 交叉 互 换 仅 
能 保证 仍 保留 模式 '**0* * * * **'， 然 而, 突变 能 提供 避 开 此 限制 的 一 种 方法 , 由 此 
也 能 提升 搜索 的 多 样 性 , 并 提供 避 开 局 部 最 大 值 的 一 种 方法 . 

突变 多 应 用 在 培育 之 后 . 在 一 个 最 简单 的 突变 过 程 中 , 每 个 基因 都 独立 地 以 概 
率 / 发 生 突变 , 且 完 全 随机 地 从 遗传 字母 表 中 选取 一 个 新 的 等 位 基因 . 如 果 j 太 
小 , 则 将 错过 许多 好 的 潜在 创新 ; 如 果 pp ACK, 则 随 着 时 间 的 推移 , 此 算法 的 学 习 能 
力 将 降低 , 这 是 因为 过 多 的 随机 波动 将 扰乱 父 代 适宜 度 的 选择 和 渴望 模式 的 遗传 . 

总 之 , 遗传 算法 通过 生成 子 代 个 体 来 延续 , 其 如 下 产生 第 tt 1 代 . 首先 , 把 第 
t 代 个 体 排序 且 依 适宜 度 选 取 个 体 . 对 这 些 选取 的 个 体 应 用 交叉 互 换 和 突变 以 产生 
第 t+1 代 . 图 3.6 是 一 个 产生 有 四 个 子 代 个 体 的 简单 例子 , 其 中 每 个 个 体 有 三 个 染 
色 体 且 染 色 体 是 二 元 编码 的 . 在 第 t 代 , 个 体 '110' 的 适宜 度 最 高 且 在 选择 阶段 被 
选 定 两 次 . 在 交叉 互 换 阶段 , 把 所 选 的 个 体 结 成 对 子 且 重组 每 一 对 以 生成 两 个 新 个 
体 . 在 突变 阶段 , 应 用 低 突 变 率 . 在 这 个 例子 中 突变 仅 出 现 一 次 . 完成 这 些 步骤 就 得 
到 了 新 的 后 代 . 


TR FR 
t t+1 


在 ! 的 适宜 度 


选择 交叉 互 换 突变 


图 3.6 ”对 于 一 个 染色 体 长 度 C = 3, 大 小 P = 4 的 种 群 , 用 遗传 算法 产生 子 代 的 例子 . 对 在 
方 框 部 分 的 染色 体 进行 交叉 互 换 . 最 后 一 列 带 有 下 划 线 的 基因 表示 突变 
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例 3.7 (棒球 运动 员 薪水 , 续 ) 图 3.7 给 出 了 在 例 3.3 引进 的 棒球 运动 员 数 据 
中 应 用 简单 遗传 算法 进行 变量 选择 的 图 例 . 应 用 大 小 P = 20 的 100 个 子 代 , 对 每 
个 可 能 的 预测 量 , 如 利用 二 元 等 位 基因 : 进入 - 删除 , 则 染色 体 的 长 度 C = 27. 第 
一 代 完 全 由 随机 选 定 的 个 体 组 成 . 应 用 基于 秩 的 适宜 度 函数 , 见 下 面 的 方程 (3.11). 
用 正比 例 于 此 适宜 度 的 概率 选取 一 个 父 代 , 而 另 一 个 父 代 完 全 独立 地 随机 决定 . 应 
用 简单 的 交叉 互 换 进行 培育 . 在 每 一 个 位 点 的 随机 突变 率 为 1% 且 相 互 独立 . 

图 3.7 中 的 横 坐 标 对 应 着 子 代 , 每 一 代 20 个 个 体 的 AIC 都 画 在 图 上 .所 求 
得 的 最 佳 模 型 包含 预测 量 2, 3, 6, 8, 10, 13, 14, 15, 16, 24, 25 和 26, 其 AIC 值 为 
一 416.95, 它 与 用 随机 初 值 的 局 部 搜索 法 得 到 的 最 佳 模 型 相 匹 配 ( 表 3.2). 此 图 明确 
地 说 明了 达尔 文 的 适 者 生存 : 20 个 随机 选 定 的 第 一 代 个 体 很 快 就 凝聚 成 三 个 有 效 
亚 种 , 它们 中 的 最 优 者 将 慢 慢 地 绝对 超越 其 他 的 . 最 优 模型 首次 在 第 87 代 求 得 . 口 
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图 3.7 例 3.7 的 遗传 算法 结果 


3. 等 位 基因 字母 表 和 基因 型 表示 
对 于 等 位 基因 的 二 元 字母 表 是 Holand 在 其 开创 性 工作 ([291]) 中 提出 的 , 并 
且 在 最 近 的 研究 中 非常 流行 . 如 用 二 元 染色 体 , 则 比 用 其 他 选择 更 容易 理解 此 算法 
的 理论 结果 、 各 种 遗传 算 子 的 相对 表现 和 算法 的 其 他 变化 等 . 
对 于 许多 优化 问题 , 有 可 能 构造 解 的 二 元 编码 . 例如 , 考虑 单 变量 函数 f(0) = 
100 — (0 — 4)? 在 区 域 9 € [1, 12.999] = [a1, a2) 中 的 优化 问题 . 假设 我 们 把 [01, a2) 中 
的 一 个 数 表示 成 
al + (z=) decimal(b), (3.9) 
其 中 6 是 一 个 d 个 数字 的 二 进 制 数 , 函数 decimal() 把 2 进 制 数 转化 成 10 进 制 数 . 
如 果 要 求 精度 有 c 个 小 数位 , 则 选取 的 d 必须 满足 
(az — a1)10° < 27-1. (3.10) 


对 于 本 例 , 为 达到 3 个 小 数位 的 精度 , 要 应 用 14 位 二 进 制 数 , 且 由 方程 (3.9) 知 , 对 
应 着 9 = 4.000 的 5 % ‘01000000000000’. 
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在 某 些 情况 下 , 例如 回归 模型 选择 问题 , 一 个 二 元 编码 的 染色 体 可 能 是 很 自然 
的 . 然而 , 在 其 他 情况 下 , 就 如 上 面 所 进行 的 , 编码 看 起 来 像 是 强迫 的 . 对 于 £0) = 
100 — (6 — 4)?, 染色 体 3 =01000000000000 (8 = 4.000) 是 最 优 的 . 然而 , 某 些 从 遗 
传 上 看 接近 这 个 的 染色 体 , 如 '10000000000000'(8 = 7.000) 和 *00000000000000"(8 = 
1.000), 其 显 型 就 不 接近 9 = 4.000， 换 旬 话 说 , 尽管 基因 型 ‘00111111111111’ 与 
‘01000000000000’ 非常 不 同 , 但 其 显 型 非常 接近 4.000. 基因 型 很 类 似 的 染色 体 可 能 
具有 非常 不 同 的 显 型 . 这 样 , 一 个 小 的 突变 就 可 能 移 至 一 个 完全 不 同 的 解 空间 , 一 
个 交叉 互 换 产生 的 子 代 的 基因 型 可 能 与 任 一 个 父 代 都 有 很 少 的 相似 之 处 ， 为 解决 
这 一 难题 , 可 能 需要 不 同 的 编码 方案 或 修改 遗传 算 子 (I 3.5.2 节 第 3 部 分 ). 

另 一 个 重要 的 二 元 表示 就 是 大 小 为 p 的 置换 问题 , 它 类 似 于 旅行 商 问 题 . 对 
于 这 样 的 问题 , 一 个 自然 的 染色 体 就 是 整数 1,2,… ,p 的 一 个 置换 , 如 p= 9 时 的 
如 =752631948'. 因为 这 样 的 染色 体 必 须 服 从 每 一 个 整数 严格 地 出 现在 一 个 位 点 上 
的 要 求 , 故 将 要 求 对 标准 的 遗传 算 子 做 某 些 改变 . 处 理 置换 染色 体 的 策略 将 在 3.5.2 
节 第 3 部 分 讨论 . 
4 初始 化 ， 终止 和 参数 值 


遗传 算法 的 初始 化 一 般 均 通过 完全 随机 地 从 个 体 中 选取 第 一 代 而 实现 . 

子 代 大 小 P 影响 算法 速度 、 收敛 行 为 和 算法 解 的 质量 . 如 果 可 能 , 就 要 取 尽 量 
大 的 P, 因为 它 能 提供 更 丰富 的 用 以 生成 子 代 的 遗传 集合 , 并 由 此 能 丰富 搜索 和 预 
防 过 早 的 收敛 . 对 于 染色 体 的 二 元 编码 , 人 们 建议 取 已 满足 C< P <20, 其 中 C 
是 染色 体 长 度 ([8]). 对 于 置换 染色 体 , 有 人 建议 其 范围 为 2C < P < 20C([293]). 在 
许多 实际 应 用 中 , 种 群 大 小 多 在 10 与 200 之 间 ([477]), 尽管 经 验 研究 表明 P 可 能 
如 30 一 样 小 ([448]). 

突变 率 一 般 很 低 , 多 在 1% 左右 . 理论 与 经 验 研究 均 建议 取 1/C([395]), 另 一 研 
究 建议 此 比率 应 正比 例 于 1/(PYO)([482]). 尽管 如 此 , 人 们 经 常 选 取 与 已 和 C 无 
关 的 固定 比率 . 

遗传 算法 的 终止 准则 多 是 被 选 来 限制 计算 时 间 的 一 个 最 大 的 迭代 次 数 ， 另 一 
个 考虑 停止 的 准则 也 可 以 选 为 : 如 当前 子 代 染 色 体 中 遗传 多 样 性 已 经 很 低 时 ([15]). 


3.5.2 变化 


本 节 将 综述 一 下 多 个 可 能 改进 算法 表现 的 方面 , 它们 包括 适宜 度 函数 、 选 择机 
制 、 遗 传 算 子 和 基本 算法 的 其 他 方面 . 
1. 适宜 度 

在 典 则 的 遗传 算法 中 , 经 常 取 生物 体 显 型 的 目标 函数 值 为 其 适宜 度 , 或 许 要 用 
当前 这 一 代 的 平均 目标 函数 值 进行 刻度 调整 . 仅 取 适宜 度 等 于 目标 函数 值 f(9) 是 


35 遗传 算法 65 


很 有 吸引 力 的 , 由 于 最 适宜 的 个 体 就 对 应 着 极 大 似 然 解 . 然而 , 直接 取 生 物体 的 适 
宣 度 为 其 对 应 显 型 的 目标 函数 值 多 是 很 幼稚 的 , 这 是 由 于 其 他 选取 会 得 到 更 好 的 优 
化 表现 . 取而代之 , 以 o(0) 记 一 个 适宜 度 函数 的 值 , 用 它 来 描述 一 个 染色 体 的 适宜 
度 . 适宜 度 函数 将 依赖 于 目标 函数 f, 但 并 不 等 于 它 . 通过 开发 由 此 而 增加 的 灵活 
性 可 以 提高 搜索 的 效力 . 

在 遗传 算法 的 多 个 应 用 中 都 有 一 个 问题 : 它 收敛 到 一 个 不 好 的 局 部 最 优 值 的 
速度 非常 快 . 当 几 个 非常 不 好 的 个 体 支 配 培育 且 它 们 的 后 代 充满 随后 的 子 代 时 , 可 
能 会 出 现 这 种 情况 . 此 时 , 每 一 个 随后 的 子 代 都 包含 着 遗传 上 很 类 似 的 个 体 , 而 这 
些 个 体 缺 乏 遗 传 的 多 样 性 , 但 这 些 多 样 性 是 产生 能 代表 其 他 后 代 和 产生 解 空间 的 有 
益 区 域 所 必须 的 . 如 果 初 始 化 后 就 出 现 这 种 情况 , 此 时 几乎 所 有 个 体 都 有 很 低 的 适 
宜 度 , 则 这 个 问题 是 很 棘手 的 . 此 时 , 比 其 余 更 适宜 的 少数 几 条 染色 体 将 把 算法 引 
入 一 个 不 喜欢 的 局 部 极 大 值 . 这 个 问题 类 似 于 前 面 算法 陷入 一 个 没有 竞争 力 的 局 部 
极 大 值 附近 , 这 也 是 本 章 前 面 所 讨论 的 其 他 搜索 方法 所 共同 关注 的 . 

由 于 遗传 算法 收敛 到 一 个 很 好 最 优 解 的 速度 可 能 非常 慢 , 故 小 心 选择 的 压力 必 
须 均衡 . 因此 , 遗传 算法 很 重要 的 一 点 就 在 于 要 保持 稳定 的 压力 以 不 让 少数 几 个 个 
体 把 算法 引 向 过 早 的 收敛 . 为 此 , 可 以 通过 设计 适宜 度 函数 以 减少 f 大 的 波动 的 影 
响 . 

一 个 通用 的 方法 是 忽略 (0P) 的 值 而 仅 用 它们 的 秩 ([16, 449, 561]). 例如 , 人 
们 可 采用 


oi- 
P(P+1)’ 
其 中 ri 是 (00) SEF IGA t 的 秩 . 此 策略 选择 对 应 着 中 等 质量 候选 解 染色 体 的 概 
率 为 L/P, 而 选择 其 他 染色 体 的 概率 大 概 为 此 中 等 质量 解 的 二 倍 , 即 2/(P+ 1) 基 
于 秩 的 方法 吸引 人 的 原因 在 于 它 保留 了 任 一 成 功 遗 传 算法 的 关键 特征 : 基于 相对 
适宜 度 进 行 选择 , 且 预 防 过 早 的 收敛 和 由 f 的 实际 形式 而 引起 的 其 他 困难 (f 的 形 
式 有 时 很 任意 )([561]). 另外 , 还 有 一 些 不 太 通用 的 包括 刻度 和 变换 的 适宜 度 函 数 ， 
见 [231]. 
2， 选 择机 制 和 更 新 后 代 

在 前 面 的 3.5.1.2 节 , 我 们 仅 提 到 过 以 适宜 度 为 基础 的 选取 父 代 的 简单 方法 . 用 
基于 适宜 度 的 秩 选 取 父 代 比 应 用 正比 例 于 适宜 度 的 概率 的 选取 方法 要 通用 的 多 . 

另 一 个 通用 的 方法 是 比赛 选择 (tournament selection)([179, 232, 233]). 在 此 方 
法 中 , 先 把 第 上代 的 染色 体 随机 分 成 上 个 不 相交 的 大 小 一 样 的 子 集 (也 许 要 暂时 忽 
略 少数 几 个 剩余 染色 体 ), 选择 每 一 组 内 最 好 的 个 体 作为 父 代 . 继续 进行 下 一 步 的 随 
机 分 组 直到 生成 足够 的 父 代 . 为 了 培育 再 把 父 代 随 机 配对 . 这 种 方法 保证 最 好 的 个 
体 将 培育 P 次 , 中 等 质量 的 个 体 将 平均 培育 一 次 , 而 最 差 的 个 体 根本 不 会 培育 . 三 


6(0) = (3.11) 
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种 选择 方法 : 比例 选择 、 基 于 秩 的 选择 和 比赛 选择 在 选择 压力 时 , 其 顺序 是 递增 的 . 
只 要 可 以 避免 过 早 地 陷入 局 部 最 优 解 , 高 压力 一 般 均 与 优良 的 表现 相关 联 , ([15]). 

可 以 部 分 更 新 种 群 . 代沟 (generation gap)G 是 指 后 代 被 它 生成 的 子 代 所 替换 
的 比例 ([126]). 于 是 , G = 1 就 对 应 着 一 个 有 完全 不 同 的、 不 相 重 又 的 后 代 的 标准 
遗传 算法 . 另 一 个 极端 , G = 1/P 就 对 应 着 一 次 仅 更 新 一 个 子 代 . 此 时 , 一 个 稳定 
Æ (steady-state) 遗传 算法 一 次 产生 一 个 用 以 替换 最 差 适宜 度 (或 某 一 个 随机 的 较 
差 相 对 适宜 度 ) 的 子 代 ([562]). 相对 于 标准 方法 , 这 种 过 程 将 展现 出 更 大 的 波动 和 
较 大 的 选择 压力 . 

当 G < 1 时 , 用 有 些 违背 达尔 文 类 推 的 选择 机 制 有 时 可 以 提升 算法 的 表现 . 例 
如 , 一 个 杰出 (elitist) 策略 将 严格 在 下 一 代 中 拷贝 当前 最 适宜 的 个 体 , 由 此 保证 当前 
最 优 解 的 生存 ((126]). 当 G = 1/P 时 , 每 一 个 子 代 都 将 替换 一 个 从 低 于 平均 适宜 
度 的 染色 体 集合 中 随机 选取 的 染色 体 ([5]). 

确定 性 的 选择 策略 被 用 来 消除 抽样 的 波动 性 ([17, 395]). 我 们 没有 看 到 消除 在 
选择 机 制 中 固有 的 随机 性 所 令 人 信服 的 必要 性 . 

当 在 生成 或 更 新 一 个 种 群 时 , 是 否 允 许 在 种 群 中 复制 个 体 是 一 个 重要 的 考虑 . 
个 体 的 复制 将 消耗 许多 计算 资源 , 并 且 它 有 可 能 看 曲 父 代 选 择 准则 (由 于 它 将 导致 
被 复制 的 染色 体 产 生子 代 的 机 会 更 多 )([119]). 
3， 遗 传 算 子 和 置换 米色 体 


为 增加 遗传 混合 , 可 以 多 选择 几 个 交叉 互 换 点 . 如 果 选 择 两 个 交叉 互 换 点 , 则 
它们 间 的 基因 序列 可 以 在 父 代 间 交 换 以 生成 子 代 . 这 样 的 多 点 交叉 互 换 可 改进 算法 
的 表现 ([48, 163]). 

现 有 多 种 把 父 代 基因 转移 给 子 代 的 其 他 方法 . 例如 , 每 个 子 代 基 因 都 用 从 父 代 
相应 位 置 的 等 位 基因 中 随机 选择 的 一 个 等 位 基因 所 填充 . 此 时 , 父 代 的 相 邻 基因 的 
起 点 可 以 是 独立 的 ([4, 527]), 也 可 以 是 相关 的 ([509]), 其 相关 长 度 控制 着 哪 一 个 子 
代 类 似 一 个 父 代 的 程度 . 

在 某 些 问题 中 , 不 同 的 等 位 基因 字母 表 也 许 是 合理 的 . 有 人 建议 用 多 于 两 个 元 
素 的 等 位 基因 字母 表 ([12, 119, 442]). 对 某 些 问题 , 采用 一 个 浮 点 字母 表 的 遗传 算 
法 优 于 采用 二 元 字母 表 的 遗传 算法 ([119, 303, 394]). 一 种 被 称 为 凌乱 的 遗传 算法 
就 采用 编码 长 度 可 变 的 遗传 算 子 以 适应 变化 的 长 度 ([234, 235, 236]). Gray 编码 是 
另 一 种 编码 方法 , 它 对 有 限 个 最 优 值 的 实 值 目标 函数 特别 有 用 ([563]). 

当 采 用 非 二 元 等 位 基因 字母 表 时 , 对 遗传 算法 其 他 方面 的 修改 , 特别 是 遗传 算 
子 的 修改 常 是 必须 且 有 效 的 . 当 应 用 置换 染色 体 时 , 这 种 修改 最 有 效 . 回顾 一 下 在 
3.5.1 节 引 入 的 关于 置换 优化 问题 的 特别 的 染色 体 编码 ， 对 于 这 类 问题 (如 旅行 商 
问题 ), 自然 的 想法 就 是 把 一 个 染色 体 写成 整数 1,2,-… ,n 的 一 个 置换 . 然后 , 就 需 
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要 一 个 新 的 遗传 算 子 以 保证 每 一 代 均 仅 包含 正确 的 置换 染色 体 . 

例如 , 设 p = 9 且 考 虑 交叉 互 换算 子 . 假设 两 个 父 代 染 色 体 为 752631948’ 和 
‘912386754’, 且 交 叉 互 换 点 位 于 第 二 个 与 第 三 个 位 点 之 间 , 则 标准 的 交叉 互 换 将 产 
生 '752386754' 和 '912631948' 两 个 子 代 . 这 两 个 都 不 是 有 效 的 置换 染色 体 , 这 是 
为 二 者 均 包 含 某 些 复制 的 等 位 基因 . 

一 种 补救 就 是 有 序 的 交叉 互 换 (order crossover)([528])， 随 机 选 定 一 个 位 点 集 ， 
然后 , 把 出 现在 一 个 父 代 这 些 位 点 上 等 位 基因 的 顺序 强加 给 在 另 一 位 父 代 的 相同 
等 位 基因 以 生成 一 个 子 代 . 交换 两 个 父 代 的 角色 以 生成 第 二 个 子 代 . 此 算 子 尊重 等 
位 基因 的 相对 位 置 . 例如 , 考虑 两 个 父 代 752631948’ 和 ‘912386754, 且 假 设 随机 选 
定 第 四 个 、 第 六 个 和 第 七 个 位 点 . 在 第 一 个 父 代 中 , 这 些 位 点 上 的 等 位 基因 是 6, 1 
和 9. 我们 必须 在 第 二 个 父 代 中 按照 上 述 顺 序 重新 安排 等 位 基因 6, 1 和 9. 在 第 
二 个 父 代 中 其 余 的 等 位 基因 是 '**238*754', 以 上 述 顺序 插入 6, 1 和 9 后 得 到 子 代 
‘612389754’. 交换 两 个 父 代 的 角色 就 得 到 了 第 二 个 子 代 352671948. 

现 已 提出 多 个 用 来 置换 染色 体 的 交叉 互 换算 子 ([116, 117, 119, 237, 395, 421, 
499]), 多 数 均 聚 集 考虑 个 体 基因 的 位 置 . 然而 , 对 于 旅行 商 之 类 的 问题 , 这 样 的 算 子 
具有 一 种 不 希望 看 到 的 趋势 , 即 它 将 破坏 父 代 旅行 城市 间 的 连接 . 我 们 希望 候选 解 
直接 是 这 些 连接 的 函数 . 破坏 连接 是 有 效 制 造 突变 的 一 个 非 刻意 的 来 源 . 有 人 提出 
利用 边缘 重组 的 交叉 互 换 (edge-recombination crossover) 以 生成 仅 包含 至 少 在 一 个 
父 代 中 连接 的 子 代 ([564, 565]). 

我 们 利用 旅行 商 问题 来 解释 边缘 重组 交叉 互 换 , 此 算 子 遵循 如 下 步 又 . 

(1) 首先 构造 一 个 边缘 表 以 存储 任 一 父 代 进入 或 离开 每 一 个 城市 的 连接 . 对 于 
上 述 两 个 父 代 '752631948: 和 ‘912386754’, 在 表 3.4 的 最 左 侧 一 列 给 出 了 相应 结果 . 
注意 到 , 每 一 父 代 进 入 或 离开 每 个 城市 的 连接 数 将 总 保持 在 2~4 之 间 . 另外 , 注意 
到 旅行 要 回 到 其 出 发 的 城市 , 于 是 , 第 一 个 父 代 把 7 看 作 来 自 8 的 连接 而 列 出 . 

(2) 为 生成 一 个 子 代 , 我 们 在 两 个 父 代 的 出 发 城市 间 进行 选择 . 对 于 此 例 , 在 城 
市 7 与 城市 9 间 进 行 选择 . 如 果 两 个 父 代 的 出 发 城市 有 着 相同 的 连接 个 数 , 则 选择 
是 随机 的 . 否则 , 选择 具有 较 少 连接 的 父 代 的 出 发 城市 . 对 于 此 例 , 选择 o, 

(3) 现在 必须 从 等 位 基因 9 向 前 连接 . 由 边缘 表 的 最 左 侧 一 列 我 们 发 现 , 等 位 
基因 9 有 两 个 连接 : 1 和 4. 我 们 希望 在 具有 最 少 连接 的 城市 间 进行 选择 . 为 此 , 首 
先 通过 删除 等 位 基因 9 来 更 新 边缘 表 , 由 此 得 到 表 3.4 的 中 间 部 分 . 由 于 城市 1 和 
城市 4 都 有 两 个 剩余 的 连接 , 故我 们 在 1 和 4 间 随 机 选择 . 如 果 选 择 是 4, 则 更 新 
子 代为 “94# wee ee *?. 

(4) 可 能 与 城市 4 的 连接 有 两 个 : 城市 5 和 城市 8. 更 新 后 的 边缘 表 为 表 3.4 
的 最 右 侧 一 列 , 由 此 我 们 发 现 城市 5 的 剩余 连接 最 少 , 于 是 , 我 们 选择 城市 5. 现在 
得 到 的 部 分 子 代 为 945k * * * xx’, 
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继续 此 过 程 , 经 下 列 几 步 : 选择 7; 选择 8; 选择 6; 自 城市 2 和 城市 3 中 随机 选择 
3; 自 城市 1 和 城市 2 中 随机 选择 1; 选择 2, 则 可 得 到 子 代 945786312. 

注意 到 在 每 一 步 中 均 选 择 连接 最 少 的 城市 . 作为 替代 , 如 果 完 全 随机 地 选择 连 
Be, 则 选择 左 侧 城市 的 可 能 性 大 , 由 此 导致 边缘 不 连续 . 由 于 旅行 是 环形 的 , 故 对 具 
有 较 少 连接 城市 的 偏好 并 不 会 引起 子 代 的 任何 偏差 . 


表 3.4 ”对 于 边缘 重组 的 交叉 互 换 , 其 前 三 步 的 边缘 表 给 出 了 连接 到 或 来 自 每 个 父 代 中 每 个 
等 位 基因 的 城市 .每 一 列 就 是 每 一 步 得 到 的 子 代 染 色 体 


步骤 1 步骤 2 步骤 3 
城市 连接 城市 连接 城市 连接 
1 3,9,2 1 3,2 1 3, 2 
2 5, 6, 1,3 2 5, 6, 1,3 2 5,6,1,3 
$ 6, 1,2,8 3 6, 1,2,8 3 6, 1, 2,8 
4 9, 8,5 4 8,5 4 使 用 
5 7,2,4 5 7,2,4 5 7,2 
6 2, 3, 8,7 6 2, 3, 8,7 6 2, 3, 8,7 
7 8, 5, 6 7 8, 5, 6 7 8,5,6 
8 4,7,3,6 8 4, 7, 3,6 8 7, 3,6 
9 1,4 9 使 用 9 使 用 
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在 某 些 问题 中 , 另 一 个 边 绕组 合 (edge assembly) 策略 是 非常 有 效 的 ([407]). 

置换 染色 体 的 突变 并 不 如 交叉 互 换 那 么 困难 . 一 个 简单 的 突变 算 子 就 是 在 染色 
体 中 随机 地 变换 两 个 基因 ([448]). 另外 , 也 可 以 随机 置换 在 一 个 染色 体 的 一 个 短 的 
随机 片段 中 的 元 素 ([119]). 


3.5.3 ”初始 化 和 参数 值 


尽管 传统 的 遗传 算法 纯粹 由 随机 个 体 组 成 的 一 代 开始 , 但 为 了 改进 随机 初 值 
的 表现 , 现 已 有 多 个 用 来 构造 具有 更 好 的 或 变化 多 样 的 适宜 度 个 体 的 启发 式 方法 
({119, 448]). 

我 们 并 不 要 求 随后 各 子 代 的 大 小 相同 . 在 一 个 遗传 算法 的 早期 后 代 中 , 种 群 适 
宜 度 经 常 能 得 到 很 快 的 改进 ， 为 避免 过 早 的 收敛 和 提升 搜索 多 样 性 , 在 算法 早期 ， 
经 常 希望 应 用 较 大 的 子 代 大 小 P. 然而 , 如 果 P 固定 在 一 个 太 大 值 , 则 对 于 实际 应 
用 而 言 , 整个 算法 可 能 相当 慢 . 一 旦 算法 向 最 优 值 迈 出 重要 的 一 步 , 则 重要 改进 的 
移动 多 经 常 来 自 高 质量 的 个 体 ; 而 低 质量 个 体 被 愈加 边缘 化 . 因此 , 建议 P 随 着 迭 
代 的 继续 而 逐步 降低 ([577]). 然而 , 为 了 降低 收敛 速度 , 一 个 更 通用 且 有 效 的 方法 
是 应 用 基于 秩 的 选择 机 制 . 

应 用 反比 例 于 种 群 多 样 性 的 变化 突变 率 也 是 很 有 用 的 ([448])， 它 将 刺激 提升 
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搜索 的 多 样 性 而 减少 后 代 的 多 样 性 . 从 鼓励 搜索 多 样 性 角度 看 , 现 已 提出 多 种 方法 ， 
它们 允许 遗传 算法 的 突变 概率 、 交 叉 互 换 和 其 他 参数 随 着 时 间 的 变化 而 自 适应 地 
改变 ([48, 118, 119, 395]). 

3.5.4 收敛 


遗传 算法 的 收敛 性 质 已 超出 了 本 章 的 范围 , 但 某 些 重要 想法 还 是 值得 一 提 的 . 

关于 遗传 算法 之 所 以 有 效 的 早期 分 析 结 果 都 是 基于 模式 这 一 概念 而 展开 的 
((231, 291)), 并 且 它们 所 讨论 的 都 是 具有 如 下 特点 的 典 则 遗传 算法 ， 二 元 染色 体 
编码 、 选择 每 一 个 父 代 的 概率 正比 例 于 适 宣 度 、 每 次 均 应 用 简单 的 交叉 互 换 且 把 父 
代 配 对 、 每 个 基因 的 突变 是 随机 的 , 突变 概率 为 y 且 相互 独立 . 在 上 述 条 件 下 , 模 
式 定理 给 出 了 在 t+ 1 代 一 个 模式 的 期 望 次 数 的 下 界 , 如 果 它 在 第 上代 也 成 立 的 话 . 

模式 定理 证 明 , 如 果 在 第 t 代 中 包含 某 模式 的 染色 体 的 平均 适宜 度 大 于 此 代 中 
所 有 染色 体 的 平均 适宜 度 , 则 一 个 短 的 低 阶 模式 ( 即 附近 仅 有 少数 几 个 等 位 基因 ) 
有 利于 提高 此 模式 在 下 一 代 中 的 重 现 . 为 了 具有 相同 的 期 望 , 一 个 较 长 的 且 / 或 更 
复杂 的 模式 将 要 求 更 高 的 相对 适宜 度 . 倡导 模式 定理 的 学 者 认为 , 算法 收敛 到 一 个 
好 的 整体 候选 解 的 原因 为 遗传 算法 能 同时 将 多 个 短 的 低 阶 的 具有 潜在 高 适宜 度 的 
模式 并 列 在 一 起 , 因此 它 能 提升 有 利 模式 的 传播 . 

最 近 , 关于 模式 定理 和 基于 它 的 收敛 主张 的 争议 越 来 越 大 , 传统 上 强调 一 个 模 
式 传播 给 下 一 代 的 次 数 和 包含 在 此 模式 内 的 染色 体 平均 适宜 度 是 有 些 误导 的 ， 传 
播 包含 此 模式 的 特定 染色 体 很 重要 . 此 外 , 模式 定理 过 分 强调 了 模式 的 重要 性 , 事 
KE, 它 适应 于 @ 的 任 一 子 集 . 最 后 , 现 已 充分 地 注意 到 遗传 算法 的 成 功 是 由 于 它 
不 明确 地 同时 分 配 搜索 资源 给 按照 模式 定义 的 © 的 区 域 ([549]). Vose ([548]) 给 出 
了 关于 遗传 算法 数学 理论 的 权威 叙述 , [175, 450] 也 包括 一 些 有 益 的 处 理 . 


问 题 


在 3.3 节 引 入 的 棒球 数据 可 见 本 书 的 主页 . 问题 3.1~3.4 研究 各 种 算法 设置 参数 的 含义 

本 着 试验 、 尝 试 确定 可 能 观测 到 不 同 兴趣 点 的 设置 的 精神 来 解决 这 些 问 题 . 增加 上 述 用 过 的 运 
行 长 度 以 适应 所 用 计算 机 的 速度 , 并 且 限制 每 次 运行 中 计算 目标 函数 的 总 次 数 为 一 个 固定 数 以 
公平 地 比较 各 种 算法 和 设置 的 差异 . 总 结 你 的 比较 和 结论 . 用 图 补充 说 明 你 建议 的 关键 点 . 
3.1 用 随机 初 值 的 局 部 搜索 算法 求 AIC 最 小 的 棒球 动员 薪水 回归 模型 , 并 在 例 3.3 之 后 模 

拟 你 的 算法 . 

(a) 通过 立刻 采取 第 一 次 随机 选取 的 下 坡 邻 域 来 改变 最 速 上 升 法 的 移动 策略 . 

(b) 改变 算法 以 研究 2- 邻 域 法 且 与 以 前 运行 结果 进行 比较 . 
3.2 ”用 禁忌 算法 求 AIC 最 小 的 棒球 动员 薪水 回归 模型 , 并 在 例 3.5 之 后 模拟 你 的 算法 . 

(a) 比较 用 不 同 禁忌 期 限 表 的 影响 . 
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3.3 


3.4 


3.5 


(b) 监控 从 当前 移动 到 下 一 步 的 AIC 的 变化 . 定义 一 个 新 属性 为 AIC 改变 超过 某 一 值 
时 的 信号 . 把 此 属性 加 入 禁忌 列表 以 提升 搜索 多 样 性 . 
(c) 如 果 一 个 高 影响 移动 优 于 逆转 , 则 不 顾 北 转 一 个 低 影 响 移动 的 禁忌 而 运行 影响 吸 气 
算法 . 影响 以 R 的 变化 来 度量 . 
用 模拟 退火 算法 求 AIC 最 小 的 棒球 动员 薪水 回归 模型 , 并 在 例 3.6 模拟 你 的 算法 . 
(a) 比较 不 同 冷却 进度 表 的 影响 (不 同 温度 和 在 每 一 温度 的 持续 时 间 也 不 同 ). 
(b) 比较 提案 密度 为 在 2- 邻 域内 与 3- 邻 域内 离散 均匀 的 影响 . 
用 遗传 算法 求 AIC 最 小 的 棒球 动员 薪水 回归 模型 , 并 在 例 3.7 模拟 你 的 算法 . 
(a) 比较 应 用 不 同 突变 度 的 影响 . 
(b) 比较 应 用 不 同 后 代 大 小 的 影响 . 
(c) 不 用 例 3.7 中 的 选择 机 制 , 尝试 如 下 三 个 机 制 : 
i， 以 正比 例 于 适宜 度 的 概率 独立 地 选择 一 个 父 代 , 而 另 一 个 完全 随机 . 
ii， 以 正比 例 于 适宜 度 的 概率 独立 地 选择 每 一 个 父 代 , 且 
iii, DA P/5 层 或 自己 喜欢 的 层 数 比赛 选择 . 
为 运行 上 述 方 法 中 的 某 一 种 方法 , 你 可 能 需要 对 适宜 度 函 数 进行 刻度 变换 . 例如 , 考 
虑 如 下 的 刻度 调整 后 的 适宜 度 函 数 r: 


oP) = af (0) +b, (3.12) 
AP) = £(0(?) — (F — 28), (3.13) 
gP) = s({?)”, (3.14) 


其 中 a,b 满足 : 平均 适宜 度 等 于 平均 目标 函数 值 且 最 大 适宜 度 比 平均 适宜 度 了 大 
c fă (c 自己 选 定 ), s 是 没有 刻度 调整 的 目标 函数 在 当前 后 代 中 的 标准 差 , 一 般 在 1 
和 3 之 间 选 取 z, v 是 比 1 稍 大 的 数 . 有 时 某 些 刻度 调整 会 使 Of? 为 负 . 此 时 , 我 们 
可 以 应 用 变换 


990?) +a, E AOP) +a > 0， 


(t)) 一 
加 =f 0, 否则 ， 


(3.15) 
其 中 a 是 第 上 代 或 最 近 上代 (k 为 给 定 的 一 个 数 ) 或 所 有 后 代 中 最 差 染 色 体 的 适 
宣 度 的 绝对 值 . 上 述 每 种 刻度 调整 方法 都 具有 消除 f 波动 的 能 力 , 因此 它们 都 保留 
代 内 的 多 样 性 和 增加 求 得 整体 最 优 值 的 潜在 能 力 . 
比较 并 评论 你 所 选 方法 的 结果 . 

(d) 应 用 代沟 G = 1 的 稳定 态 遗传 算法 , 并 与 有 完全 不 同 的 、 不 相 重 登 后 代 的 标准 遗传 
算法 相 比较 . 

(e) 运行 如 下 的 被 称 为 均匀 交叉 互 接 方法 ([527]): 子 代 每 一 位 点 的 等 位 基因 都 独立 且 完 
全 随机 地 来 自 父 代 相同 位 点 的 等 位 基因 . 

考虑 在 例 3.1 中 引进 的 遗传 图 例子 . 图 3.8 给 出 了 100 个 模拟 的 长 度 为 12 的 染色 体 序 

列 数据 . 左 侧 图 给 出 的 是 真实 遗传 图 顺序 的 数据 ,而 右 侧 图 是 分 析 者 不 知 图 顺序 的 实际 

数据 . 上 述 数据 可 在 本 书 主页 上 找到 . 
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3.6 


3.7 


3.8 


12 | ca) 
Tl 了 
ai 6 zo 


1 | i 1 f 
1 50 100 1 50 100 
个 体 个 体 
图 3.8 问题 3.5 的 染色 体 . 在 12 个 位 点 模拟 的 100 个 个 体 的 数据 . 类 似 于 在 例 3.1 中 
的 图 3.1, 对 于 每 一 个 位 点 , 来 自 杂 合 父 代 的 源 染 色 体 被 编码 成 白色 或 黑色 . 左 侧 
图 的 数据 是 按照 真实 位 点 顺序 安排 的 ,而 右 侧 图 的 数据 是 按照 数据 收集 期 间 所 
记录 到 的 位 点 标号 安排 的 


(a) 应 用 随机 初 值 的 局 部 搜索 法 估计 遗传 图 ( 即 顺序 与 遗传 距离 ). 假设 邻 域 包含 20 个 
顺序 , 而 这 些 顺 序 通过 随机 交换 两 个 等 位 基因 的 位 置 而 不 同 于 当前 顺序 . 移动 是 朝 
向 邻 域 中 最 好 候选 解 的 , 故 采 取 的 是 随机 下 降 法 .从 少数 几 个 有 限 长 度 的 初 值 开 始 ， 
考评 问题 的 计算 难度 , 然后 在 计算 量 的 合理 范围 内 记录 你 得 到 的 最 优 结果 . 评价 你 
得 到 的 结果 、 算 法 的 表现 ， 并 给 出 改进 搜索 的 想法 ， (提示: 注意 到 无 论 从 哪 头 读 ， 
(91,9ja，… ha) 与 (Oha bi 0a) 均 表 示 相同 的 染色 体 .) 

(b) 应 用 快速 下 降 的 随机 初 值 局 部 搜索 算法 估计 遗传 图 . 评价 你 的 结果 和 此 算法 的 表现 . 
此 问题 的 计算 量 很 大 , 可 能 需要 一 台 快 速 的 计算 机 . 

考虑 问题 3.5 所 描述 的 遗传 图 数据 . 

(a) 应 用 一 种 遗传 算法 估计 遗传 图 ( 即 顺 序 和 遗传 距离 ), 应 用 有 序 交 叉 互 换 方法 . 从 少 
量 运行 次 数 开 始 , 考评 此 问题 的 计算 难度 , 然后 在 计算 量 的 合理 范围 内 记录 每 次 运 
行 的 结果 . 评价 你 的 结果 、 算法 的 表现 , 并 给 出 改进 搜索 的 想法 . 

(b) 比较 由 有 序 交 叉 互 换 和 边缘 重组 交叉 互 换 策略 得 到 的 适宜 度 改 进 的 速度 . 

(c) 对 这 些 数据 , 尝试 应 用 其 他 启发 式 的 搜索 方法 . 描述 此 算法 的 过 程 、 速度 和 结果 . 

本 书 主页 还 包括 遗传 图 问题 的 第 二 个 人 造 数据 . 此 数据 有 30 个 染色 体 . 对 这 些 数据 尝 

试 应 用 一 种 或 两 种 启发 式 搜索 方法 . 撕 述 此 算法 的 过 程 、 结 果 和 你 所 过 到 的 任何 问题 的 

性 质 . 此 数据 集 也 给 出 了 用 来 模拟 此 数据 的 真实 顺序 . 尽管 真实 顺序 可 能 不 是 MLE, 但 

你 得 到 的 最 好 顺序 与 真实 顺序 该 如 何 接近 ? 而 此 问题 比 上 一 个 问题 大 多 少 昵 ? 

对 来 自 意大利 三 个 区 域 的 178 种 葡萄 酒 中 的 每 一 种 测量 其 13 种 化 学 成 分 ([47])， 本 

书 主页 给 出 了 这 些 数据 . 应 用 本 章 的 一 种 或 几 种 启发 式 的 搜索 方法 , 把 这 些 酒 按照 组 内 

总 平方 和 最 小 分 成 三 组 ， 评 价 你 的 工作 和 结果 . 这 是 一 个 大 小 为 3? 的 搜索 问题 , 其 中 

p = 178. 如 果 你 有 权 使 用 标准 的 聚 类 分 析 程 序 , 利用 类 似 于 Hartigan 和 Wong([276]) 

的 标准 方法 , 检验 你 的 结果 . 
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EM 算法 是 一 种 迭代 优化 策略 , 它 是 受 缺失 思想 以 及 考虑 给 定 已 知 项 下 缺失 
项 的 条 件 分 布 而 激发 产生 的 .该 策略 的 统计 基础 和 在 多 种 统计 问题 中 的 有 效 性 在 
Dempster, Laird 和 Rubin 的 研究 论文 [130] 中 给 出 了 说 明 . 关于 EM 和 相关 方法 
的 其 他 参考 文献 包括 [349, 354, 380, 387, 530). EM 算法 的 普及 源 自 于 它 能 非常 简 
单 地 执行 并 且 能 通过 稳定 、 上 升 的 步骤 非常 可 靠 地 找到 全 局 最 优 值 . 

在 频率 论 者 的 框架 中 , 我 们 可 以 想象 由 随机 变量 X 生成 的 观测 数据 连同 来 自 
随机 变量 2 的 缺失 或 未 观测 数据 . 我 们 预想 由 Y = (X, 2) 产生 的 完全 数据 . 给 
定 观测 数据 z, 我 们 希望 最 大 化 某 似 然 函 数 L(9|z). 通常 采用 该 似 然 函 数 会 难以 处 
理 , 而 采用 Yle 和 2Z|(z,6) 的 密度 则 较 容易 处 理 . EM 算法 通过 采用 这 些 较 容易 的 
密度 避 开 了 直接 考虑 L(9|z). 

在 Bayes 的 应 用 中 , 兴趣 通常 集中 在 对 某 后 验 分 布 f(9|z) 的 众 数 的 估计 上 . 
另外 , 优化 有 时 可 以 通过 考虑 除 感 兴趣 的 参数 9 之 外 的 未 观测 随机 变量 而 得 到 
简化 . 

缺失 数据 可 能 不 是 真 的 缺少 了 : 它们 可 能 仅 是 简化 问题 所 采取 的 策略 . 在 这 种 
情形 , 2 通常 称 为 潜 数 据 . 优化 有 时 可 以 通过 引入 这 个 新 要 素 到 问题 中 而 得 到 简化 ， 
这 可 能 看 起 来 是 违反 直觉 的 . 然而 , 本 章 中 的 例子 和 参考 文献 说 明了 该 方法 潜在 的 
好 处 . 在 某 些 情形 , 分 析 者 必须 利用 他 的 创造 力 和 智慧 来 虚构 有 效 的 潜 变 量 ; 在 其 
他 情形 , 有 自然 的 选择 . 


4.1 ”缺失 数据 、 边 际 化 和 符号 


无 论 考虑 Z 为 潜在 的 还 是 缺失 的 , 它 可 以 看 作 是 通过 对 某 种 多 到 少 映射 X = 
M(Y) 的 应 用 , 从 完整 的 Y 中 被 删除 掉 了 . 设 fx(z|9) 和 fy(y|9) 分 别 表示 观测 
数据 和 完全 数据 的 密度 . 潜在 或 缺失 数据 的 假设 等 同一 个 边际 化 模型 , 在 该 模型 中 
我 们 观测 到 X 有 密度 fx(z|9) =f , Fe(ul@ay. 注意 到 给 定 观测 数据 下 


{y:M(Y)= 
缺失 数据 的 条 件 密度 为 fz x(zle, 8) = fy (yl0)/fxl2l0). 

在 关注 于 兴趣 参数 0 的 后 验 密度 的 Bayes 应 用 中 , 有 两 种 方式 , 通过 这 两 种 方 
式 我 们 可 以 考虑 用 后 验 来 表示 一 个 更 宽泛 问题 的 边际 化 . 第 一 , 把 似 然 函 数 Z(elz) 
看 作 完 全 数据 似 然 函 数 5(6ly) = L(9|z,z) 的 一 个 边际 化 是 明智 的 . 在 这 种 情形 缺 
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失 数据 是 z, 且 我 们 采用 与 上 面相 同 的 一 类 符号 . 第 二 , 我 们 可 以 考虑 有 缺失 参数 
wb, 即使 p 本 身 并 无 意义 , 它 的 引入 简化 了 Bayes 计算 . 幸运 的 是 , 在 Bayes 模式 
下 , 这 两 种 情形 并 没有 实际 区 别 . 因为 ZA y 均 为 缺失 的 随机 变量 , 我 们 用 缺失 变 
量 的 符号 来 表示 未 观测 的 数据 还 是 参数 无 关 紧 要 . 在 采用 频率 论 者 符号 的 情形 , 读 
者 可 以 把 似 然 函数 和 2 分 别 用 后 验 和 y RARE, 以 考虑 Bayes 的 观点 . 

在 关于 EM 的 文献 中 , 与 我 们 的 用 法 相 比较 , 传统 上 采用 颠倒 AY 角色 的 
符号 . 我 们 脱离 传统 , 在 本 书 的 其 他 各 处 用 X = z 来 表示 观测 数据 . 


4.2 EM 算 法 


EM 算法 选 代 寻 求 关 于 9 最 大 化 L(9|z). BOY 表示 在 迭代 t 时 估计 的 最 大 
值 点 , t = 0,1,…. 定义 QOO) 为 观测 数据 X = z 条 件 下 完全 数据 的 联合 对 数 
似 然 的 期 望 . 即 ， 


Q(0|0) = Ef log L(6|¥)|a, 0 } (4.1) 
=E{ log fy(yl@)|a, 0} (4.2) 
= [08 Fy iO) ax (ele, 0)dz, (4.3) 


其 中 (4.3) 强调 一 旦 我 们 给 定 X = 2, 2 就 是 Y 的 唯一 的 随机 部 分 . 

EM 从 0O 开始 , 然后 在 两 步 之 间 交 替 : E 表示 期 望 , M 表示 最 大 化 . 该 算法 
概括 如 下 ， 

(1) E $: 计算 Q(8l6G). 

(2) M 步 : 关于 9 最 大 化 QOH). Ko) 等 于 Q 的 最 大 值 点 . 

(3) 返回 BAF, 直到 满足 某 停止 规则 为 止 . 
优化 问题 的 停止 规则 在 第 2 章 中 讨论 过 . 在 目前 的 情形 , 这 样 的 规则 通常 依赖 于 
(9%) -9G)T(8d+D — gf) 或 Q(t) a) — Q(0|6)). 
例 4.1 (简单 的 指数 密度 ) 为 理解 EM 的 符号 , 考虑 一 个 普通 的 例子 , H Y, Yo ~ 
iid. Exp(9). 假定 y = 5 是 观测 到 的 , 但 yo 的 值 是 缺失 的 . 完全 数据 对 数 似 然 函 
数 为 logZ(bly) = log fy (yl@) = 2log{fe} — 9y — Oyz. 取 log L(Y) 的 条 件 期 望 得 

Q(8|0) = 2log{b} — 50 — 90/0 外 ,因为 由 独立 性 得 E{Yo|yi, 0} = E{Y2z|9G9} = 

1/09. 容易 发 现 QOO) 关于 9 的 最 大 值 点 是 2/6 -— 5- 1/0 = 0 的 根 . 对 9 R 
解 得 到 更 新 方程 904+1) = 20° 注意 到 这 儿 E 步 和 M 步 不 需要 在 每 次 迭代 时 重 
新 导出 : 由 某 初 始 值 开始 对 更 新 公 式 的 反复 应 用 可 给 出 收 全 到 6 = 0.2 估计 . 

这 个 例子 不 是 实际 的 . 9 来 自 观 测 值 的 极 大 似 然 估计 可 以 由 初等 分 析 方 法 确 
定 , 不 用 依靠 像 EM 这 样 的 任何 花 式 的 数值 优化 策略 . 更 重要 地 , 我 们 将 会 认识 到 
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求 得 所 需 期 望 在 实际 应 用 中 是 骗 人 的 , 因为 我 们 需要 知道 给 定 缺 失 数据 下 完全 数据 
的 条 件 分 布 . 口 
例 4.2 (WIER) HIER (peppered moth), NUH RK (Biston betularia), 给 出 了 
一 个 进化 和 工业 污染 的 生动 故事 [242]. 这 些 蛾 子 的 色彩 确信 由 某 单个 基因 决定 , 该 
基因 具有 三 个 可 能 的 等 位 基因 , 我 们 记 为 C,I 和 T. 三 者 之 中 , C 对 1 是 显 性 的 , 而 
T 对 I 是 隐 性 的 , 因此 基因 型 CC, CI 和 CT FAURA (carbonaria) 表 型 , 它 呈现 
纯 黑 色 . 基因 型 TT 导致 典型 (typica) 表 型 , 它 呈 现 浅 色 图 案 的 翅膀 . 基因 型 II 和 
IT 产生 一 个 称 作 岛 屿 (insularia) 的 中 间 表 型 , 它 在 外 观 上 变化 很 广泛 , 但 通常 以 中 
闻 色 彩 杂 色 而 成 , 这 样 , 有 六 种 可 能 的 基因 型 , 但 只 有 三 种 基因 型 在 田间 工作 中 是 
可 测 的 . 

在 英国 和 北美 , 受 烧 煤 工业 影响 的 地 区 内 黑 化 表 型 几乎 代替 了 浅 色 表 型 . 等 位 
基因 频率 在 种 群 内 的 这 种 变化 被 引用 为 在 人 类 社会 可 以 观测 到 微 进 化 的 一 个 例子 . 
(被 试验 支持 的 ) 理论 是 “ 鸟 类 对 于 在 不 同 反射 的 背景 下 明显 不 同 的 蛾 体 捕食 程度 
不 同 ” 导致 了 在 时 间 和 地 区 上 对 黑 化 表 型 有 利 的 选择 , 在 这 些 地 区 煤 烟 的 、 污染 的 
条 件 减弱 了 蛾 栖息 的 树 皮 表面 的 反射 [242]. 当 改 善 的 环境 标准 减少 了 污染 时 , 浅 色 
表 型 的 流行 增加 , 黑 化 型 的 流行 骤 降 , 这 并 不 让 人 感到 奇怪 . 

因此 , 有 必要 监控 等 位 基因 C, I 和 T 随时 间 变 动 的 频率 以 对 微 进化 过 程 提供 
见解 . 此 外 , 这 些 频率 中 的 趋势 也 为 监控 空气 质量 提供 了 一 个 有 趣 的 生物 学 标志 . 在 
某 足够 短 的 时 间 段 内 , 等 位 基因 频率 的 一 个 近似 模型 可 以 由 Hardy-Weinberg 法 则 
建立 , 该 法 则 指出 在 Hardy-Weinberg 平衡 下 的 某 种 群 里 每 个 基因 型 的 频率 应 该 等 
于 相应 的 等 位 基因 频率 的 乘积 , 或 者 当 两 个 等 位 基因 不 同时 两 倍 于 该 乘积 (以 说 明 
在 亲 代 来 源 上 的 不 确定 性 )[14, 275). 这 样 , 如 果 种 群 中 等 位 基因 的 频率 为 pc, pr 和 
pr, 那么 基因 型 CC, Cl, CT, I, IT 和 TT 的 频率 应 分 别 为 ph, 2pcpr, 2pcpr， Pie 
2prpr 和 ph. 注意 到 po + py + pr = 1. 

假定 我 们 捕获 到 n 只 蛾 子 , 其 中 黑 化 、 岛 屿 和 典型 表 型 的 分 别 有 nc, nt 和 nr 
R. 于 是 nc +nt+nr =n. 因为 每 只 蛾 子 在 讨论 的 基因 上 有 两 个 等 位 基因 , 样本 中 
一 共有 2n 个 等 位 基因 . 如 果 知道 每 只 蛾 子 的 基因 型 而 不 仅仅 是 它 的 表 型 , 我 们 就 
能 生成 基因 型 数 nco, nci, Ner, nin, nir 和 mrT， 由 它们 可 以 容易 列 出 等 位 基因 的 
频率 . 例如 , 有 基因 型 CI 的 每 只 蛾 子 贡献 一 个 C 等 位 基因 和 一 个 I 等 位 基因 , 而 
一 个 I 的 蛾 子 贡 献 两 个 I 等 位 基因 . 这 样 的 等 位 基因 数 会 立刻 提供 po, pi 和 pr 的 
估计. 仅 由 表 型 个 数 如 何 估计 等 位 基因 频率 还 很 不 明朗 . 

在 EM 符号 下 , 观测 数据 为 Zz = (no, nnr), 而 完全 数据 为 y = (nccyncrn ncm， 
nan nrT;nTT). 从 完全 数据 到 观测 数据 的 映射 为 z= M(y) = (ncc+ner+nor, n+ 
mr;nTT). 我 们 希望 估计 等 位 基因 概率 po, pr 和 pr. 因为 pr = 1- pc - p, 该 问 
题 的 参数 向 量 为 p = (pc.p), 但 是 为 了 符号 的 简化 , 我 们 在 后 面 常会 提 到 pr- 
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完全 数据 的 对 数 似 然 函数 是 多 项 式 : 


log fy (ylp) =ncc log{p3} + ncrlog{2pcpr} + ncr log{2pcpr} 
+n log{p?} + nir log{2pr} + urr log{pt} 


+log ( kg ). (4.4) 
NCC NCI NCT NI UT NTT 


完全 数据 并 不 是 都 可 观测 到 的 . BY = (Noo, Nor Ner, Nm Nev. nvr), 因为 我 们 
知道 Ner = npr, 但 其 他 的 频率 不 可 直接 观测 到 . 为 计算 Q pip), 注意 到 在 条 件 
nc 和 参数 向 量 pb = (pO, pO) F, 三 种 黑 化 基因 型 的 潜在 数目 有 一 个 三 元 多 项 式 
分 布 , 该 分 布 具有 个 数 参数 nc BES (pO), 2p pO 和 2p pO 成 比例 的 单元 概率 . 
对 两 个 典型 单元 也 有 类 似 的 结果 . 于 是 (4.4) 中 前 五 个 随机 部 分 的 期 望 值 为 


no(py)? 


E{Ncclncynn nr, p} = n= -r So a, (4.5) 
| OO rehome 
{Nail 9} (t) 2ncpl p (4.6) 
E{Noi|nc, nnr, p®} = nor = QS w oW’ 4.6 
OR) + 2p rl + 2P0P 
i Oy =n 2ncp p 
E{Ner|nc, m, nr, P} = ner = >) OW (4.7) 
(PY? + 2p 0? + 20 pT 
(t))2 
mlp) 
E{Nu|nc, m, nr, pO} = ni) = 1” (4.8) 
(Pf)? + 2p py 
2mp 
E{Nirinc, n nr, pO} = nf = IPL Pr (4.9) 


(oh? + 2p1 pP 


最 后 , 我 们 知道 wrr = nr, 其 中 nr 是 观测 到 的 . 似 然 函数 中 的 多 项 式 系数 有 一 个 
条 件 期 望 , 比方 说 k(no, nt, nv, p”), 它 不 依赖 于 p. 于 是 , 我 们 发 现 


QPlp) = nf log{p2} + ng} log {2pcpx} 


+nẸ} log{2pcpr} + nip log{p?} 


+ni® log{2prpr} + nrr log{pt} + k(ne, npn, p). (4.10) 


注意 到 pr =1- pe-p, KF pc 和 p 求 导 得 


dQ(plp9) _ 2m +f} tng _ 2ni + neh + nie 


4.11 
dpc PC 1l-po-PI cap 
dglpo) _ anf) +n +n an tner n (4.12) 


dpr PL 1l—po- pi 
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设 这 些 导 数 为 零 并 关于 pc 和 p 求解 即 完成 M 步 , 得 到 


cet) _ 2nGb + nd + ne 
po = ee 


ze (4.13) 
(0) 
(eer) _ 2ni + tn 

rf Sn 4.14) 
O 4 n® +n 

oer = Mire tner thr, (4.15) 


其 中 最 后 一 个 表达 式 是 由 这 些 概率 加 和 为 一 的 约束 得 到 的 . 如 果 第 t 次 潜在 数目 
是 真 的 , 黑 化 等 位 基因 在 样本 中 的 个 数 将 会 是 2n& +n) nth. PEAR —IEAT On 
个 等 位 基因 . 这 样 , EM 更 新 由 设 定 pt) 的 元 素 等 于 从 第 t 次 潜在 基因 型 数目 得 
到 的 表 型 频率 而 组 成 . 

假定 观测 到 的 基因 型 数目 为 nc = 85,n1 = 196 及 np = 341. X 4.1 说 明 
了 EM 算法 如 何 收敛 到 极 大 似 然 估 计 , 约略 为 po = 0.070 84, py = 0.188 74 及 
Pr = 0.740 43. 找到 py 的 一 个 精确 估计 比 po 的 要 更 慢 , 因为 似 然 函 数 在 pt 坐标 
上 较 平缓 . 


表 4.1 WERIT EM 结果 . oo RO, DO 和 DY 同文 中 定义 


t me mo RO DO D“ 
0 0.333 333 0.333 333 
i 0.081 994 0.237 406 5.7 x 107! 0.042 5 0.337 
2 0.071 249 0.197 870 1.6 x 10-1 0.036 9 0.188 
3 0.070 852 0.190 360 3.6 x 1072 0.036 7 0.178 
4 0.070 837 0.189 023 6.6 x 107? 0.036 7 0.176 
5 0.070 837 0.188 787 1.2 x 1073 0.036 7 0.176 
6 0.070 837 0.188 745 2.1 x 1074 0.036 7 0.176 
T 0.070 837 0.188 738 3.6 x 10-5 0.036 7 0.176 
8 0.070 837 0.188 737 6.4 x 1076 0.036 7 0.176 
表 4.1 的 后 三 列 给 出 了 收敛 性 的 诊断 . 相对 收敛 准则 

RO = lp® — pd (4.16) 


lp] 


概括 了 由 一 次 迭代 到 下 一 次 迭代 在 pO 上 相对 改变 的 总 量 , 其 中 zl = (212), 
ct) 


为 了 说 明 , 我 们 还 给 出 了 DË = fon 和 类 似 的 量 Dl”. 这 些 比值 很 快 收敛 到 


常数 , 从 而 证 实 EM 的 收敛 速度 如 | (2.19) 定义 的 那样 是 线性 的 . 口 
例 4.3 (Bayes 后 验 众 数 ) 考虑 一 个 具有 似 然 L(6|z)、 先 验 1(6) 以 及 缺失 数据 或 
者 参数 Z 的 Bayes 问题 . 为 找到 后 验 众 数 , E 步 需要 
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£ 
S 


6) =E{log{L(0|Y)f(0)k(Y)} læ, 0} 

=Eflog L(6|Y)|x, 0} + log f(0) + Eflogk(¥)|x,0}, (4.17) 
其 中 (4.17) 中 的 最 后 一 项 是 一 个 可 以 忽略 的 归 一 化 常数 , 因为 Q 是 要 求 关 于 9 最 
大 化 . 该 函数 Q 通过 简单 地 向 极 大 似 然 框架 中 用 到 的 Q 函数 添加 对 数 先 验 而 得 


到 . 不 幸 的 是 , 对 数 先 验 的 加 入 通常 使 得 在 M 步 最 大 化 Q 更 困难 . 4.3.2 节 描述 了 
多 种 在 困难 情况 下 简易 化 M 步 的 方法 . 口 


4.2.1 ”收敛 性 


为 了 观察 EM 算法 的 收敛 性 质 , 我 们 通过 说 明 每 个 最 大 化 步 提高 了 观测 数据 
的 对 数 似 然 i(9|z) 开始 . 首先 注意 到 观测 数据 密度 的 对 数 可 重新 表达 为 


log fx (w|8) = log fr(yl6) — log 7zlIx(zlm,9). (4.18) 


此 ， 
Eflog jx(zlejlz,609} = E{log fy (y|@)|a, 0} — Eflogf z x (zlz, 0)|z, 0}, 
其 中 期 望 是 关于 2\(c,0) 求 取 的 . 于 是 
log fx(zl6) = Q(8|0) — H(010®), (4.19) 
其 中 
H(0\0) = E{log fz)x(Z|z, @)|x, 0}. (4.20) 
在 我 们 说 明 当 9 = 0! 时 H(0\0) 关于 6 取得 最 大 后 , (4.19) 的 重要 性 成 为 显 
然 , 为 理解 此 点 , 给 出 
H(0|0) ~ H(0l0®) =Eflog fz x(Z|2, 0) — log fzlx (Z|z, 0)læ, 0} 


we or fax (|x, 8) (ty 
-J log [oes Pa Ree 


>- log | fzıx(zlz,0)dz 
=0. (4.21) 


表达 式 (4.21) KA Jensen 不 等 式 的 一 个 应 用 , 这 是 因为 -logu 关于 u 是 严格 
DÉI. 

这 样 , 任何 0 40O AME H(00®) 比 H(O lo) 要 小 . 特别 地 , 如 果 我 们 
选择 OO) 来 关于 9 最 大 化 Q(9|9 中 ), 那么 因为 Q 增 大 而 H 减少 ， 


log fx(wl0*) — log fx(w|0) > 0, (4.22) 
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4 QO |) > QO |) 时 , 严格 不 等 式 成 立 . 

在 每 次 迭代 中 选择 OO) 来 关于 9 BK Q(0|0) 构成 了 标准 的 EM 算法 . 
如 果 取 而 代 之 的 是 只 简单 选取 任 一 个 使 得 QHO) > QOP) 的 at, 
那么 得 到 的 算法 称 作 广义 EM, BRA GEM. 在 任 一 情形 , 增 大 Q 的 那 一 步 也 增 大 
了 对 数 似 然 . 使 得 该 上 升 性 保证 收敛 到 某 极 大 似 然 估 计 的 条 件 在 [54, 576] 进行 了 
探讨 . 

得 到 该 结果 后 , 下 面 考虑 该 方法 收敛 的 阶 .EM 算法 定义 了 一 个 映射 ot = 
更 (8@), 其 中 函数 G(8) = (1(0),… , Vp(0)) HO = (01,… ,0b). 4 EM 收敛 时 ， 
如 果 收 敛 到 该 映射 的 一 个 不 动 点 , 那么 6 = (6). 设 亚 '(8) 表示 Jacobi 矩阵 , 其 
(5) 元 素 为 LO. 因为 OY -6 = 更 (9 人 9) — PÔ), V 的 Taylor 级 数 展开 得 到 


a) _6 ~ w/a) (a — ô), (4.23) 


将 该 结果 与 (2.19) 式 比较 , 我 们 看 到 当 p = 1 时 EM 算法 有 线性 收敛. 对 p > 1, 
若 观测 的 信息 Ôe) 是 正定 的 , 则 收敛 仍 是 线性 的 有 关 收 敛 的 更 精确 细节 在 
[130, 380, 383, 386] 给 出 . 

EM 收敛 的 全 局 速度 定义 为 


(t+ a 

p= jim, (4.24) 
可 以 证 明 当 -- 必 (8lz) 正定 时 , p 等 于 W'(6) 的 最 大 特征 值 . 在 4.2.3 节 第 1,2 部 分 
我 们 将 考查 VÔ) 如 何 是 缺失 信息 分 数 的 一 个 矩阵 . 这 样 , p 可 有 效 地 用 作 缺 失信 
息 总 比例 的 一 个 标量 综合 . 在 概念 上 , 缺失 信息 的 比例 等 于 1 减 去 观测 信息 与 包含 
在 完全 数据 中 的 信息 的 比率 . 这 样 , 当 缺 失信 息 的 比例 较 大 时 , EM 经 历 较 慢 的 收 
敛 ， 比 如 与 牛顿 法 的 二 次 收敛 相 比 , EM 的 线性 收敛 会 极端 地 慢 , 尤其 是 当 缺 失信 
息 的 分 数 很 大 时 . 然而 , EM 的 执行 方便 和 稳定 上 升 通常 是 非常 吸引 人 的 , 尽管 它 
收敛 慢 . 4.3.3 节 讨 论 了 加 速 EM 收敛 的 方法 . 


为 进一步 理解 EM 如 何 工 作 , 注意 到 由 (4.21) 得 


1(8lz) > Q(010®) + 16 |x) - Q010) = G(8l8G)， (4.25) 


HT Goo) 的 后 两 项 独立 于 0, 函数 Q 和 G 在 相同 的 0 达到 最 大 . 此 外 , G 在 
9 中 与 1 相 切 , 且 在 任 一 处 低 于 1. 我 们 说 G 是 的 一 个 劣化 函数 . EM 策略 将 优 
化 问题 由 | 转换 到 替代 函数 G( 有 效 地 到 Q), 这 更 便于 最 大 化 . G 的 最 大 值 点 保证 
了 在 1 值 上 的 增加 . 这 个 思想 在 图 4.1 给 出 了 图 解 . 每 个 卫 步 等 同 于 构造 劣化 函数 
G, 而 每 个 M 步 等 同 于 最 大 化 该 函数 以 给 出 一 个 上 升 的 路 径 . 


《8|x) 


N 
| G0) 


gd ggd 
0 


图 4.1 作为 一 种 劣化 或 优化 转换 策略 的 EM 算法 的 一 维 图 示 


临时 把 ! 用 一 个 劣化 函数 替代 是 称 作 优化 转换 的 更 一 般 策 略 的 一 个 例子 . EM 
算法 与 优化 转换 其 他 统计 应 用 的 联系 在 [350] 进行 了 考察 . 在 提出 最 优化 为 最 小 化 
的 数学 应 用 中 , 我 们 通常 求助 于 最 大 化 (majorization), 因为 我 们 能 通过 用 一 GC(6|9(0) 
来 最 大 化 负 的 对 数 似 然 来 实现 . 
4.2.2 ”在 指数 族 中 的 应 用 


当 完 全 数据 被 建 模 为 具有 指数 族 分 布 时 ， 数 据 的 密度 可 以 写成 flyl6) = 
ci(y)c2(0) exp{6" s(y)}, 其 中 6 是 自然 参数 的 一 个 向 量 , s(y) 是 充分 统计 量 的 一 个 
向 量 . 在 这 种 情形 , E 步 得 出 


Q(6|0") = k + log c2(0) + f 0 s(y)fzix(zlz,90®)az, (4.26) 


其 中 k 是 一 个 不 依赖 于 9 的 量 . 为 实现 M 步 , 设 QOO) KF 9 的 梯度 等 于 零 . 
在 重新 整理 各 项 并 采用 明显 的 符号 简化 进行 向 量化 积分 后 , 得 到 


ZAO = /ojaxeleeo)az (4.27) 
可 直接 证 明 c?(8) = —c2(@)E{s(Y)|0}. 因此 , (4.27) 意味 着 M API at) 
等 于 求解 
BE{s(Y)l0} = | sy)faix (ele,00)ds (4.28) 
得 到 的 9 而 完成 . 除去 将 g@ 用 oD 代替 外 , 下 一 个 BH QOO 的 形式 是 
不 变 的 , 且 下 一 个 M 步 求解 同样 的 优化 问题 . 因此 , 指数 族 的 EM 算法 由 下 面 的 步 
RAR. 
OES: 给 定 观测 数据 并 利用 现 有 的 参数 猜测 值 99, 计算 完全 数据 的 充分 
统计 量 的 期 望 值 & sO = B(s), 0} = sjax(zle oo)dz 
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(2) M 步 : BOO) 为 使 得 完全 数据 的 充分 统计 量 的 无 条 件 期 望 等 于 3 的 
9 值 . 换 句 话说 , OC) 是 求解 E{s(Y)|9} = s(9 得 到 的 . 

(3) 返回 BY, 直到 满足 某 收敛 准则 为 止 . 
例 4.4 ( 椒 花 蛾 , 续 ) 例 4.2 中 的 完全 数据 来 自 一 个 多 元 正 态 分 布 , 是 属于 指数 族 
的 . 充分 统计 量 是 , 比如 说 , 前 五 个 基因 型 数目 (第 六 个 由 个 数 总 和 为 n 的 约束 得 
Bl), 自然 参数 是 (4.4) 中 看 到 的 相应 的 对 数 概率 , 借用 (4.5)~(4.9) 的 符号 并 以 明显 
的 方式 索引 sG 的 成 分 , 则 E 步 的 前 三 个 条 件 期 望 是 sE = nfl, 6) =n A 
sO = mn 前 三 个 充分 统计 量 的 无 条 件 期 望 为 npz,2npcpl 和 2npcpr. 让 这 三 个 
表达 式 等 于 上 面 给 出 的 条 件 期 望 并 对 pc 求解 构成 pc 的 M 步 . 三 个 方程 求 和 给 出 
np? 十 2npcpr + 2npcpr = ni, + nO + nE), 它 简化 为 (4.13) 给 出 的 更 新 . 注意 到 
三 个 概率 加 和 为 1 的 约束 , pi 和 pr 的 EM 更 新 可 类 似 找 到 . a 
4.2.3 ”方差 估计 


在 极 大 似 然 估 计 框 架 中 , EM 算法 用 来 找到 一 个 极 大 似 然 估计 , 但 并 不 自动 产 
生 极 大 似 然 估 计 的 协 方差 阵 的 一 个 估计 . 通常 地 , 我 们 会 用 极 大 似 然 估计 的 渐进 正 
态 性 来 确保 寻找 Fisher 信息 阵 的 一 个 估计 . 因此 , 估计 协 方差 阵 的 一 种 方式 是 计算 
观测 信息 -1"(9|z), 其 中 1" B log L(6|z) 的 二 阶 导数 的 Hessian FF. 

在 Bayes 框架 中 , 9 的 后 验 协 方差 阵 的 一 个 估计 可 以 通过 注意 后 验 的 渐进 正 态 
性 来 得 到 [194]. 这 需要 对 数 后 验 密度 的 Hessian RE. 

在 有 些 情形 , Hessian 阵 可 以 解析 计算 出 来 . 而 在 其 他 情形 , 要 得 到 或 编码 Hes- 
sian 阵 会 很 困难 . 在 这 些 场合 , 可 用 多 种 其 他 方法 来 简化 协 方差 阵 的 估计 . 

在 下 面 描述 的 方法 中 , SEM 算法 容易 实施 且 通 常 给 出 快速 、 可 靠 的 结果 . 甚至 
更 容易 的 是 自助 法 (bootstrap), 尽管 对 非常 复杂 的 问题 , 嵌 套 循环 的 计算 量 会 令 人 
望而却步 . 这 两 种 方法 很 值得 推荐 , 然而 在 某 些 情 况 下 其 他 的 备 选 方法 也 会 有 用 . 
1. Louis 方法 

取 (4.19) 的 二 阶 偏 导 数 且 两 边 反 号 得 到 

(|x) = -Q"(0|w)|w=0 + H"(0\w) |=, (4.29) 


其 中 在 QU 和 ”上 的 撒 号 表示 关于 第 一 个 自 变量 9 的 导数 . 
等 式 (4.29) 可 以 重 写 成 


ix(0) = iy(0) — îzıx (0), (4.30) 


其 中 ix(9) = -以 (8lz) 是 观测 信息 , 而 iy(6) 和 iz) x (0) 分 别称 作 完 全 信息 和 缺 
失信 息 . 交换 积分 和 求 导 ( 当 可 能 时 ), 我 们 有 


iy(0) = —Q" (0|w)|u-0 = ~E{l(6|Y) |x, 0}, (4.31) 
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CH (1.28) 中 定义 的 Fisher 信息 的 回顾 . 这 促成 了 称 iy (0) 为 完全 信息 . 类 似 的 
讨论 对 -H" 也 成 立 . 等 式 (4.30) 表明 观测 信息 等 于 完全 信息 减 去 缺失 信息 , 该 结 
果 称 为 缺失 信息 法 则 [363, 574]. 

缺失 信息 法 则 可 用 来 得 到 6 的 协 方差 阵 的 一 个 估计 . 可 以 证 明 


d 
izix(0) = var { Eaz, (4.32) 
其 中 方差 是 关于 fz RM. 进一步 , 因为 在 6 处 的 期 望 得 分 为 零 , 故 有 
ix) = | Sax(0)Szx (0) fax (IX, 0)dz, (4.33) 


其 中 Sz)x(0) = dios Faiz (10.8) 
缺失 信息 法 则 使 得 我 们 能 够 用 完全 数据 似 然 和 给 定 观测 数据 下 缺失 数据 的 条 
件 密度 来 表达 ix(9), 而 且 可 以 避免 包括 观测 数据 的 可 能 复杂 的 边际 似 然 的 计算 . 
在 某 些 情况 下 该 方法 可 较 容 易 得 到 并 编码 , 但 它 并 不 总 比 直接 计算 -U (0e) 明显 
地 容易 . 
如 果 iy (0) 或 者 iz (0) 难于 解析 计算 , 可 以 通过 Monte Carlo 方法 ( 见 第 6 章 ) 
来 估计 . 例如 , iy (0) 的 最 简单 的 Monte Carlo 估计 为 
LQ _ 2log fy (y;l0) 
mo- 


dg.d6 (434) 


其 中 对 i= 1 ,mu yi = (x, zi) 是 模拟 的 完全 数据 集 , 它 是 由 观测 数据 和 从 fox 
抽取 的 独立 同 分 布 假设 下 的 缺失 数据 值 z; 构成 的 .类 似 地 , iz(6) 的 一 个 简单 的 
Monte Carlo 估计 是 由 这 样 收集 的 2, 得 到 的 Selene.) 值 的 样本 方差 

例 4.5 ( 删 失 的 指数 数据 ) ”假定 我 们 试图 在 模型 Yi,- , Yn ~ iid.Exp(A) 下 观 
测 到 完全 数据 , 但 有 些 情 形 是 右 册 失 的 . 这 样 , 观测 数据 是 = = (z1,… ern), 其 中 
mi = (min(yi, ci), ĝi), ci 是 删 失 水 平 , 如 果 yi < ci, 6; = 1, 否则 6; =0. 


完全 数据 对 数 似 然 为 Alu,- ,yn) =nlogà -A Y yi. BRE 
i=1 


QAP) = EUA, -+ Ya) |, A) (4.35) 
=nlogA— A J E{Y;|æ;, A®} 
i=1 
=nlog 和 -~ 入》、 [vids + (c +:1/A) (1 -5)| (4.36) 
i=1 


n 
=nlog\ — 41» (vid: + ci(1 — 6;)] — CAA, (4.37) 


i=1 
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其 中 C= ya 一 6) 表示 删 失事 件 的 个 数 . 注意 到 (4.36) 来 自 指数 分 布 的 无 记忆 
性 . 因此 , —Q”(AJAM) = n/d?. 

一 个 删 失事 件 2; 的 未 观测 到 的 结果 有 密度 fo, (nila, A) = Aexp{- 和 (zi — 
Ci) } fee} RE (4.32) 中 那样 计算 iz x(), 我 们 发 现 

dlog fzix(2Z|z,N) 


T =C/r\- 》 (Z-a). (4.38) 
{i:5:=0} 


由 于 Z -ci 有 一 个 Exp( 和 ) 分 布 , 该 表达 式 关于 fzx 的 方差 为 


igixQ)= JO var{Zi- ci} = 0/X. (4.39) 
{i:6:=0} 


这 样 , 应 用 Louis 方法 ， 
ix(A) = n/X? — C/X = U/X, (4.40) 
其 中 U = D 6; 表示 未 删 失事 件 的 个 数 . 对 这 个 基本 的 例子 , 通过 直接 分 析 容 易 验 
i=1 
证 ~ (Ajs) = U/X2. o 
2. SEM 算法 


记得 前 面 有 更 表示 EM 映射 , 是 有 不 动 点 6 和 (i,j) 元 素 等 于 SL 的 Jacobi 
矩阵 更 '"(8). Dempster 等 人 [130] 说 明 在 (4.30) 的 术语 下 


P(T = iz\x (Oty (8). (4.41) 
如 果 我 们 将 (4.30) 中 的 缺失 信息 法 则 重新 表达 为 
ix (6) = [I -iz)x(6)iy (6) fey (6), (4.42) 


其 中 工 是 一 个 单位 阵 , 并 且 把 (4.41) RA (4.42), 然后 将 ix (6) 求 逆 可 给 出 估计 


三 {9} = iy (6) (7 + (0)TIT— wô) . (4.43) 


这 个 结果 是 吸引 人 的 , 因为 它 把 想得到 的 协 方差 阵 表 示 成 了 完全 数据 协 方差 阵 加 一 
个 考虑 缺失 数据 的 不 确定 性 的 增 量 矩阵 ， 当 结合 后 面 的 数值 微分 策略 来 估计 该 增 
量 时 , Meng 和 Rubin 把 此 方法 称 为 扩展 的 EM(SEM) 算法 [384]. 因为 在 微分 方法 
中 , 数值 不 精确 只 影响 估计 的 增 量 , 协 方差 阵 的 估计 通常 比 在 4.2.3 节 第 5 部 分 描 
述 的 普通 的 数值 微分 方法 更 稳定 . 
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亚 '(6) 的 估计 如 下 进行 . SEM 的 第 一 步 是 运行 EM 算法 直至 收敛 , 找到 最 大 值 
点 @. 第 二 步 是 从 6@) 重新 开始 算法 . 尽管 可 以 从 原来 的 起 始点 重新 开始 , 最 好 是 
选择 更 靠近 6 的 8. 

已 经 这 样 初始 化 SEM 后 , 我 们 对 t= 0,1,2,… 开始 SEM 和 迭代 .第 t+1 步 SEM 
迭代 通过 取 一 个 标准 的 下 步 和 M 步 由 0% 产生 gt 开始 . 接着 , 对 了 = 1,… ,p， 
定义 OOG) = ( Âj 0P, Âi 8p) 和 对 i = 1,.… ,p， 


W,(0 (9) — ĝi 
oP -6 


注意 亚 (6) = 9. 这 完成 一 步 SEM HAR. (0O G) 的 值 是 通过 对 j = 1,… ,p 应 
用 一 步 EM 循环 到 6(0(7) 而 产生 的 估计 . 

注意 到 PÔ) 的 (6,5) 元 素 等 于 lim of. 当 7 值 的 序列 对 + > ty 稳定 时 ， 
我 们 可 以 认为 该 矩阵 的 每 一 个 元 素 是 被 精确 估计 的 . 注意 DÂ) 的 不 同 元 素 的 精 
确 估计 可 能 需要 不 同 的 迭代 次 数 ， 当 所 有 元 素 都 稳定 后 ,SEM 迭代 停止 , 得 到 的 
ww’ (6) 的 估计 用 来 确定 (4.43) 中 给 出 的 aÂ). 

数值 不 精确 可 以 引起 得 到 的 协 方差 阵 稍微 不 对 称 ， 这 种 非 对 称 性 能 用 来 诊断 
原始 的 EM 过 程 是 否 运行 到 了 足够 的 精度 , 以 及 用 来 评定 估计 的 协 方差 阵 的 元 素 
中 有 多 少 位 是 可 靠 的 . 如 果 I- 亚 '(6)7 不 是 半 正 定 的 或 者 不 能 数值 求 逆 , 也 会 出 
现 困难 , 见 [384]. 建议 变换 @ 以 达到 一 个 近似 正 态 似 然 , 这 样 能 获得 更 快 的 收敛 并 
增加 最 终 解 的 精度 . 
例 4.6 ( 椒 花 蛾 ， 续 ) ”来 自 例 4.2 的 结果 可 以 用 Meng 和 Rubin 的 方法 来 补充 . 
由 pt) = 0.07 和 of = 0.19 开始 , 在 少许 的 SEM 和 迭代 内 可 得 到 稳定 、 精 确 的 
结果 . do, br 和 pr 的 标准 误 分 别 是 0.007 4, 0.011 9 和 0.132. 两 两 相关 系数 为 
cor{fc, Pr} = —0.14, cor{fc, pr} = -0.44 和 cor{ 广 ,pr} = 一 0.83. 这 里 , SEM 用 来 
得 到 jc M fi 的 结果 , 方差 、 协 方差 和 相关 系数 之 间 的 基本 关系 则 用 来 为 pr 扩展 
这 些 结果 , 这 是 因为 估计 的 概率 加 和 为 1. 口 

在 EM 和 迭代 终止 后 才 开始 SEM 和 迭代 看 起 来 效率 不 高 . 一 种 备 选 方法 是 在 EM 
迭代 进行 时 尝试 用 
v0, a. 085), 0, a5, Vy ,gt-D) = w,(a'-)) 

0 as oe 


ri) = (4.44) 


a) = (4.45) 
来 估计 Y' (6) 的 成 分 . 然而 , Meng 和 Rubin 指出 该 方法 总 的 说 来 并 不 会 需要 更 少 
WEAR, 首先 找到 6 所 需 的 多 余 的 步 数 能 通过 更 接近 6 来 开始 SEM 得 到 弥补 , H 
该 备 选 方法 数值 稳定 性 较 差 . Jamshidian 和 Jennrich 调查 了 对 更 或 ABBA 
微分 的 多 种 方法 , 包括 某 些 他 们 认为 优 于 SEM 的 方法 [302]. 
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3. Bootstrap( 自 助 法 ) 


Bootstrap 的 全 面 讨论 在 第 9 章 给 出 . 在 其 最 简单 的 实施 中 , 用 Bootstrap 来 为 
EM 得 到 协 方差 阵 的 一 个 估计 , 对 独立 同 分 布 的 观测 数据 z1,… ,zw 来 说 将 如 下 进 
行 : 

(1) 用 适用 于 z1,… ,zn 的 一 个 合适 的 EM 方法 来 计算 Oem. 令 了 = 1 且 设 

ô; = bp. 

(2) 增加 j. 从 z1,… ,zs 有 放 回 地 完全 随机 抽取 伪 数 据 XT, XT. 

(3) 通过 将 同样 的 EM 方法 应 用 到 拟 数据 XY... Xp 上 计算 6;. 

(4) 如 果 j 足够 大 , 停止 ; 否则 返回 第 2 步 . 
对 多 数 问 题 , 几 千 次 迭代 就 足够 了 , 在 过 程 的 最 后 , 我 们 已 经 产生 了 一 组 参数 估计 
ôi, On, 其 中 B 表示 用 到 的 迭代 总 数 . 于 是 这 些 B 个 估计 的 样本 方差 就 是 6 
的 估计 方差 . 顺便 地 , 6 的 样本 分 布 的 其 他 特征 , 比如 相关 系数 和 分 位 数 , 可 以 用 基 
于 如,… On 的 相应 样本 估计 来 得 到 . 注意 , Bootstrap 将 EM 循环 潜入 到 了 B 次 
迭代 的 第 二 层 循环 中 ， 当 每 个 EM 问题 的 求解 由 于 高 比例 的 缺失 数据 或 高 维 而 变 
慢 时 , 这 一 嵌 套 循环 将 会 导致 计算 繁重 . 
4， 经 验 信息 

当 数 据 是 独立 同 分 布 (ii.d.) 时 , 注意 到 得 分 函数 是 每 个 观测 的 单个 得 分 的 和 : 


dlog fx(z|0) _ 
db 


U(O\x) = SoU Ole), (4.46) 
i=l 


这 里 我 们 把 观测 数据 集 写成 z = (z1,… ,zn). 因为 Fisher 信息 阵 定义 为 得 分 函数 
的 方差 , 上 式 建议 用 单个 得 分 的 样本 方差 来 估计 该 信息 . 经 验 信息 定义 为 

$M lave las - SU (Ole: (01e). (4.47) 
这 一 估计 已 经 在 [381, 447] 的 EM 内 容 中 得 到 了 讨论 . 该 方法 吸引 人 之 处 在 于 (4.47) 
中 的 所 有 项 都 是 M 步 的 副产品 : 不 需要 额外 的 分 析 . 为 了 解 这 点 , 注意 到 (0 关于 
9 最 大 化 Q(o|\o) — !(8lz). 因此 , 关于 9 取 导 数 得 


Q'(@l6@)|e-em ="(8|2)|g_gw- (4.48) 
由 于 Q 通常 在 每 个 M 步 计 算 , 故 (4.47) 中 的 单个 项 是 可 以 得 到 的 . 
5 数值 微分 


为 估计 Hessian ME, 考虑 用 (1.10) 计算 在 6 处 的 数值 导数 , 每 次 一 个 坐标 . 
估计 的 Hessian 阵 的 第 一 行 可 以 通过 向 6 的 第 一 维 坐标 加 一 个 小 的 扰动 得 到 , 然后 
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计算 U (0) 在 9 = 6 和 扰动 值 处 取 值 的 差 与 扰动 大 小 的 比率 . Hessian 阵 的 其 余 行 也 
可 类 似 地 近似 . 如 果 一 个 扰动 太 小 , 估计 的 偏 导数 可 能 由 于 舍 入 误差 而 不 准确 ; 如 
果 一 个 扰动 太 大 , 估计 可 能 也 不 准确 . 这 样 的 数值 导数 需 慎重 地 自动 处 理 , 特别 是 
当 8 的 成 分 有 不 同 的 刻度 时 . 更 多 深奥 的 数值 微分 策略 可 在 [302] 中 找到 . 


43 EM 变 型 
4.3.1 KEE D 


E 步 需要 找到 在 观测 数据 条 件 下 完全 数据 的 期 望 对 数 似 然 . 我 们 已 经 用 
QOH) 表示 该 期 望 ， 当 该 期 望 难以 解析 计算 时 ， 可 以 用 Monte Carlo 方法 来 近 
似 ( 见 第 6 章 ). 

Monte Carlo EM 


Wei 和 Tanner[557] $238 t 4+ E 步 可 以 用 下 面 的 两 步 替 代 . 
O 从 fzlx(zlz,609) 中 抽取 独立 同 分 布 的 缺失 数据 集 ZO, o, 2. 每 个 
ZO 是 用 来 补 齐 观测 数据 集 的 所 有 缺失 值 的 一 个 向 量 , 这 样 Yi = (z, Z) 表示 一 


个 补 齐 的 数据 集 ， 其 中 缺失 值 由 Zj RE. 

(2) 计算 QU+9 (90) = wE log fy (Y $10). 
那么 QD (ojo) 就 是 gao 的 Monte Carlo 估计 . M 步 改 为 最 大 化 Qt) 
(6). 

推荐 的 策略 是 在 初期 的 EM 和 迭代 中 使 用 较 小 的 mO 并 随 着 迭代 的 进行 逐渐 增 
大 mt 以 减少 在 Q 中 引入 的 Monte Carlo 变异 性 . 不 过 这 种 Monte Carlo EM H 
法 (MCEM) 和 普通 的 EM 收敛 方式 不 一 样 . 随 着 迭代 的 进行 , 0 的 值 最 终 在 真 
实 的 最 大 值 附近 跳跃, 其 精度 依赖 于 mÀ. 关于 MCEM 渐进 收敛 性 的 讨论 见 [87]. 
对 MCEM 随机 备 选 方案 的 讨论 见 [129]. 
例 4.7 ( 删 失 的 指数 数据 ， 续 ) 在 例 4.5 中 , 容易 计算 出 给 定 观测 数据 下 (AY) = 
mlog 入 一 入 > 下 的 条 件 期 望 . 可 以 最 大 化 (4.37) 式 给 出 的 结果 以 提供 普通 的 EM 

i=l 

更 新 ， 


Ae = (4.49) 
E riði + C/A 
& 


MCEM 的 应 用 也 很 简单 . 在 本 案例 中 ， 


m® 


入 
Qe+D(AAMO) = mlog 入 一 z0 YS vf. (4.50) 
j=l 
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其 中 1 是 所 有 元 素 均 为 1 的 向 量 , Y; 是 包含 未 删 失 数据 和 模拟 数据 Zj = (Za, 
Zic) 的 第 j 个 补 齐 的 数据 集 ，Zix — cr ~ iid.Exp(A9), k= 1,… ,C, 是 用 来 代替 
删 失 值 的 . 令 AAD) = 0 且 对 A 求解 得 到 


(t+2) _ n 
AH) = 一 (4.51) 
> Y}1/m 
j=l 


作为 MCEM 的 更 新 . 

本 书 的 网 站 提供 了 ”= 30 个 观测 , 包括 C = 17 个 删 失 观测 . 图 4.2 对 比 了 用 
这 些 数据 估计 和 的 MCEM 和 普通 EM 的 表现 . 两 种 方法 都 容易 求 得 极 大 似 然 估 
计 入 = 0.218 5. 对 MCEM, 我 们 用 m® = 5141/10], 其 中 |z| 表示 z 的 整数 部 分 . 
一 共用 了 50 步 迭代 . 两 种 算法 的 初始 值 均 为 M0) = 0.504 2, 它 是 无 视 删 失 的 所 有 
30 个 数据 值 的 均值 . 口 


a) 10 20 30 40 50 
TER, t 


4.2 例 4.7 中 讨论 的 删 失 的 指数 数据 的 EM( 实 线 ) 和 MCEM( HEAR) 的 迭代 比较 


4.3.2 改进 M 步 


EM 算法 的 吸引 力 之 一 在 于 Q(8|6@) 的 求 导 和 最 大 化 通常 比 不 完全 数据 极 大 
似 然 的 计算 简单 , 这 是 因为 QOO) 与 完全 数据 似 然 有 关 ， 然而 , 在 某 些 情况 下 ， 
即使 导出 8(6le 中 ) 的 E 步 是 直接 了 当 的 , M 步 也 不 容易 实施 . 为 此 人 们 提出 了 多 
种 策略 以 便于 M 步 的 实施 . 
1. ECM 算法 


Meng 和 Rubin 的 ECM 算法 是 用 一 系列 计算 较 简单 的 条 件 极 大 化 (CM) 步骤 
代替 M 步 [385]. 每 次 条 件 极 大 化 均 被 设计 为 一 个 简单 的 优化 问题 , 该 优化 问题 把 
9 限制 在 某 特殊 子 空间 而 且 容 许 解析 解 或 非常 初等 的 数值 解 . 

我 们 称 第 t 个 E 步 后 的 较 简单 CM 步 的 集合 为 一 个 CM 循环 . 因此 , ECM 的 
第 t 次 迭代 包括 第 上 个 卫 步 和 第 上 次 CM 循环 . 令 S 表示 每 个 CM 循环 里 CM 步 
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的 数目 . 对 s = 1,… ,5, 第 上 次 循环 里 第 s 个 CM 步 需要 在 约束 
gs(0) = 90-9!) (4.52) 


下 最 大 化 Q(8le@), 其 中 oE- 是 在 当前 循环 的 第 (s - 1) 个 CM 步 中 求 得 
的 极 大 值 点 . 当 S 个 CM 步 的 整个 循环 完成 时 , 我 们 令 OY = 003/9 并 进行 第 
(t 十 1) 次 迭代 的 卫 步 . 

显然 任 一 ECM 都 是 一 个 GEM 算法 (4.2.1 节 ), 因为 每 个 CM 步 都 使 8 增 大 . 
为 了 保证 ECM 收敛 , 我 们 需要 确保 每 次 CM 循环 都 可 以 在 任意 方向 搜索 Q(0|0) 
的 最 大 值 点 , 这 样 BCM 可 在 9 的 原始 参数 空间 上 而 不 是 在 某 子 空间 上 有 效 地 最 大 
化 . 精确 条 件 的 讨论 见 [383, 385]; 这 种 方法 的 推广 包括 [356, 387]. 

构造 有 效 ECM 算法 的 技巧 在 于 巧妙 地 选择 约束 条 件 . 通常 , 可 自然 地 把 9 分 
成 5 个 子 向 量 9 = (01, ,9s). 然后 在 第 s 个 CM 步 中 , 我 们 可 以 固定 0 其 余 的 元 
素 而 关于 6。 寻求 最 大 化 Q. 这 等 同 于 用 函数 gs(8) = (01, ,9s-1,0s+1,.… ,0s) 
导出 的 约束 条 件 . 这 种 最 大 化 策略 以 前 称 之 为 远 代 条 件 模式 [30]， 如 果 是 通过 寻找 
得 分 函数 的 根 得 到 条 件 极 大 值 , CM 循环 也 可 以 看 成 Gauss-Seidel 迭代 ( 见 2.2.4 
节 ) 


l 另外 ,第 s 个 CM 步 也 可 以 在 固定 0, 下 关于 0 的 其 他 元 素 最 大 化 Q. 在 这 种 
情况 下 , gs(6) = 0s. 也 可 根据 特定 的 问题 背景 想象 其 他 的 约束 体系 . ECM 的 一 种 
变型 是 在 每 两 个 CM 步 之 间 插 入 一 个 E 步 , 由 此 在 CM 循环 的 每 一 个 阶段 均 更 新 
TQ. 

例 4.8 ( 带 缺 失 值 的 多 元 回归 ) Meng 和 Rubin[385] 给 出 了 一 个 特别 有 启发 性 的 例 
子 , 这 个 例子 涉及 带 缺 失 值 的 多 元 回归 . 设 U1,… ,Un 是 从 d 维 正 态 模型 


Ui ~ Nilh E) (4.53) 


观测 的 n 个 独立 的 d- 维 向 量 , 其 中 Ui = (Va,… Uia) 且 u; = ViB, 这 里 Vi 是 
BAH d x p 设计 矩阵 , 8 是 p 个 未 知 参数 的 一 个 向 量 , E 是 一 个 d x d 的 未 知 方 
差 - 协 方差 阵 . 很 多 情形 下 = 具有 某 种 有 意义 的 结构 , 但 为 简单 起 见 我 们 认为 DB 
没有 特定 结构 的 . 假定 某 些 U: 的 某 些 元 素 是 缺失 的 . 

先 将 U: 和 u 的 元 素 以 及 V: 的 行 重新 排序 , 以 使 对 每 个 i Ui 中 观测 到 的 元 
素 在 前 未 观测 到 的 元 素 在 后 . 对 每 个 Qi, 用 B; 和 2; 表示 相应 的 参数 重 排 . 因此 
B; 和 D: 是 由 p, E 和 缺失 数据 的 类 型 完全 确定 的 . 

这 种 符号 上 的 重 排 使 得 我 们 可 以 记 Ui = (U obs,is U miss,i), Hi = (jobssis Hmiss,i) 


Dobsii Doross,i 
5; = ( z Sy ) (4.54) 


cross, 


观测 数据 的 全 集 可 以 表示 成 Uobs = (Uobs1,*… ,Uobs,n)- 


及 
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在 相差 一 个 可 加 常数 下 , 观测 数据 对 数 似 然 函数 为 
UB, Eluovs) = —3 J log Borel — E (tora — Hoses) Bib «tobe. — Hotes) 
i=l i=l 
这 个 似 然 处 理 起 来 及 最 大 化 都 相当 麻烦 然而 注意 到 完全 数据 的 充分 统计 量 是 由 
Sy GH le dM SU yUie, R= 1d 给 出 的 . 因此 也 步 等 价 于 在 观测 
i=l i=l 


数据 和 当前 参数 BO, DO 条件 下 求 这 些 充分 统计 量 的 期 望 . 
现在 对 j=1,…,d 有 


n n 
E 位 Us|uovs, B®, zo) =P ap, (4.55) 
i=1 i=1 
其 中 加 
af) = Qij ， 如 果 Uij 缺失 ， (4.56) 
ay uj, ”如 果 观 察 到 Uij = uij, 
E a = EB{Vijluobsis BP, B00}. 类 似 地 , 对 jk =1,…,d 有 
n 
E 位 Ui Vix rn 0,300 = D (aag + of) ý (4.57) 
i=1 i=1 


oy (t) 如 果 和 都 缺失 
ijk? U; Uii ， 
of, -{ Rea bs 
E YẸ}, = cov{Uiy, Uixlttovs i BP, DP} 
幸运 的 是 , al) 和 4 中 的 推导 相当 直接 .Umisoi|(wovsi, BP, DP) 的 条 件 分 布 
为 
N (plas + Beem Biche (tatas — Mya), Bones — Baron Biche P Tow): 


miss,i cross,i 


al) oR 的 值 可 以 从 这 个 分 布 的 均值 向 量 和 方差 - 协 方差 阵 中 分 别 读 取 ， 据 此 ， 
Q(B, EIB, 5) 就 可 以 根据 (4.26) 得 出 . 

这 样 就 完成 了 E 步 , 我 们 现在 转向 讨论 M 步 . 无 论 是 直接 最 大 化 还 是 参考 指 
数 族 分 布 的 知识 , 高 维 参数 空间 和 复杂 的 观测 数据 似 然 都 给 直接 进行 M 步 带 来 了 
困难 . 但 是 , 在 每 次 CM 循环 中 用 S = 2 的 条 件 最 大 化 步骤 可 以 直接 实施 ECM R 
略 - 

把 B A E 分 开 处 理 可 使 得 Q 的 约束 优化 容易 进行 . 首先 , 如 果 加 入 约束 = 
EO, 那么 我 们 可 以 用 加 权 最 小 二 乘 估计 


BAD = (S VFEP v) (SVE) a) aso) 


i=1 i=1 
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RF B 最 大 化 Q(B, B18, EO) 的 约束 形式 , 其 中 al = (af, af)? A al? 
被 当 作 已 知 的 方差- 协 方差 阵 ， 这 就 保证 了 QHD, 2/20, 5) > Qa, 
DOBH, DO), 这 构成 两 个 CM 步 的 第 一 步 . 

第 二 个 CM 步 依据 于 下 面 的 事实 , 即 取 24+2/3 等 于 


12 

ef= Lu: > vB) (U; z TriBG+tU3)T tops, Bt), BO} (4.60) 
可 在 约束 p = BV) 下 关于 D 最 大 化 QB, 3/8, 5), 因为 这 等 同 于 在 必要 
时 插入 0? 和 (2. 并 计算 完全 数据 的 样本 协 差 阵 . 这 样 的 改进 保证 


QBD A yy (t+2/2) 189, B®) > QBD, xO (B®, 2) 
2Q(8, BO/AO, 29). (4.61) 


将 这 两 个 CM 步 合 起 来 有 (BHD, BHD) = (BHH, g/d) 且 保证 在 Q 函数 
上 有 一 个 增 量 . 

这 里 描述 的 EB 步 和 CM 循环 均 可 用 熟悉 的 闭 式 解析 结果 完成 ,而 不 需要 数值 
积分 或 最 大 化 . 用 上 面 给 出 的 CM 循环 更 新 参数 以 后 , 我 们 回 到 另 一 个 卫 步 , 再 继 
续 如 此 进行 . 总 之 , ECM 在 下 面 二 者 之 间 交 蔡 进 行 : (i) 创建 更 新 了 的 完全 数据 集 
和 (ii) 用 当前 的 完全 数据 成 分 , 轮流 固定 8 ALD 中 的 某 一 个 为 其 当前 值 来 序 贯 估 
计 另 一 个 参数 . o 
2. EM 梯度 算法 


如 果 最 大 化 不 能 用 解析 的 方法 来 实现 , 那么 可 以 考虑 采用 一 种 类 似 于 第 2 章 
中 讨论 的 迭代 优化 方法 来 实施 每 个 M 步 . 这 将 会 产生 一 个 有 媒 套 迭代 循环 的 算法 . 
ECM 算法 在 EM 算法 的 每 次 迭代 中 插入 5 个 条 件 最 大 化 步骤 , ISP ERE 
AK. 

AiG RAN SGA, Lange 提出 用 单 步 Newton 法 替代 M 步 , 从 而 可 
近似 取得 最 大 值 而 不 用 真正 地 精确 求解 [347]. M 步 是 用 由 


8d+D — 9) _ 2818) } co @(18)| 


=9 _ Q" (aj) | 


lai (4.62) 


o_o! O |x), (4.63) 


给 出 的 更 新 替代 的 , 其 中 (OO |e) 是 当前 和 迭代 得 分 函数 的 估 值 . 注意 (4.63) 是 由 
4.2.3 WH 4 部 分 中 9 最 大 化 QOP) — !(6lz) 的 结论 得 来 的 . 这 种 EM 梯度 算 
法 和 完全 EM 算法 对 6 有 相同 的 收敛 速度 . Lange 讨论 了 保证 上 升 的 条 件 以 及 月 
以 加 速 收敛 的 更 新 增 量 的 缩放 比例 . 特别 地 , 当 Y 是 有 典 则 参数 9 的 指数 族 分 布 
时 , 可 以 保证 上 升 而 且 此 方法 与 Titterington[538] 的 方法 相对 应 . 在 其 他 情形 , 可 以 
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缩小 步 长 以 保证 上 升 (如 在 2.2.2 节 第 1 部 分 所 讨论 ). 但 是 增加 步 长 可 以 加 速 收 化， 
对 有 高 比例 缺失 信息 的 问题 , Lange 建议 考虑 步 长 加 倍 [347]. 


例 4.9 (WIER, 续 ) 接 例 4.2, 我 们 对 这 些 数据 应 用 EM 梯度 算法 . 可 直接 得 出 


PAPPE) angh+nGl+nG, nE tnih +n (4.64) 
ape Pe (l=po- pr? ’ 
POPPO) aP +n in n +n +n (4.65) 
dp? p? (L -pc 一 pD2 ’ 
dQ(plp®) n+ nE} + nla (4.66) 
dpcdpr (1 — po — pr)? 


图 4.3 显示 了 从 pc = p = pr = 1/3 开始 的 EM 梯度 算法 的 步骤 . 步 长 减 半 以 保 
证 上 升 . 第 一 步 的 方向 多 少 有 些 错误 , 但 在 后 续 迭 代 中 梯度 步骤 很 直接 地 上 升 . 此 
图 也 给 出 了 普通 EM 步骤 以 作对 比 . 口 


ee 
0.05 0.15 0.25 0.35 
Pe 
图 4.3 EM 梯度 算法 (长 划 线 ) 采用 的 步骤 .普通 的 EM 步 又 用 实 线 表示 . 也 给 出 了 后 面 章 
节 两 种 方法 (Aitken 和 拟 Newton 加 速 ) 的 步 又 , 见 图 示 . 观测 数据 的 对 数 似 然 用 灰 
度 显示 , 淡 阴影 对 应 于 高 似 然 . 所 有 的 算法 均 从 pc = p = 1/3 开始 


4.3.3 ”加 速 方法 


EM 算法 收敛 慢 是 一 个 明显 的 缺点 . 现 已 提出 几 种 方法 , 以 采用 来 自 EM 的 相 
对 简易 的 解析 结构 来 得 到 类 Newton 法 步骤 的 特定 形式 ， 除 了 下 面 给 出 的 两 种 方 
法 , 近期 感 兴趣 的 问题 是 如 何 巧妙 地 扩展 参数 空间 以 加 速 收敛 而 不 影响 关于 9 的 
边际 推断 [360, 387]. 
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1. Aitken ji 


BE OGL) 是 由 标准 的 EM 算法 从 0° 得 到 的 下 一 次 迭代 . 回顾 最 大 化 对 数 似 
然 的 Newton 更 新 为 


AD = 9 — p (0O) W (0 |x). (4.67) 


EM 框架 建议 找 一 个 (0 |) 的 替代 . 在 4.2.3 节 第 4 部 分 我 们 注意 到 (8dlz) = 
QI 将 Q! 在 9 附近 展开 并 代入 OS? 得 


oe 


Q'(9\0 ~ QOO] gy Z vO OK? - 0), (4.68) 


oag» 0-0" 


Fep iy (0) 在 (4.31) 中 定义 . 由 于 OG? 关于 6 最 大 化 了 Q(a\a), (4.68) 的 左 
边 等 于 零 . 因此 
2010 )| oo ~ BY OVO? — 0). (4.69) 


于 是 由 (4.67) 我 们 得 出 
ott) — bd _ 1" (|x) Ny (0 (A? 了 at). (4.70) 


这 种 更 新 一 一 依赖 于 (4.69) 的 近似 一 一 ERA Aitken 加 速 的 一 般 策 略 的 一 
个 例子 , 该 法 是 由 Louis[363] 为 EM 提出 的 .EM 的 Aitken 加 速 正好 等 同 于 用 
Newton-Raphson 方法 求 亚 (8) - 9 的 一 个 零点 , 其 中 更 是 由 普通 EM 算法 生成 
a) = wo) 定义 的 映射 . 

例 4.10 ( 椒 花 蛾 , 续 ) ”这 种 加 速 方法 可 以 应 用 到 例 4.2 中 . 对 该 问题 , 得 到 在 
分 析 上 比 其 他 EM 方法 采用 的 较 简单 求 导 更 繁 元 . 图 4.3 给 出 了 Aitken 加 速 的 步 
RR, 它 很 快 地 收敛 到 解 . 这 个 过 程 以 pc = p = pr = 1/3 开始 , 采用 了 减 半 的 步 长 
以 保证 上 升 . 口 

由 于 其 潜在 的 数值 不 稳定 性 和 收敛 失败 , Aitken 加 速 有 时 会 被 人 们 批评 [133， 
301). 而且, 当 (9 四 |z) 计算 困难 时 , 如 果 没 克服 该 困难 就 不 能 使 用 此 方法 [18， 
302, 381]. 

4.2.1 节 指 出 EM 算法 以 依赖 于 缺失 信息 分 数 的 线性 比率 收敛 . (4.70) 式 给 出 
的 更 新 增 量 , 泛泛 地 说 , 由 完全 信息 对 观测 信息 的 比例 决定 . 因而 , 当 较 大 比例 的 信 
息 缺失 时 , 额定 的 EM 步 长 变 得 更 长 . 

Newton 方法 是 平方 收敛 的 , 但 (4.69) 式 只 是 当 6G 接近 6 时 成 为 一 个 精确 近 
似 ， 因此, 我 们 只 能 期 望 这 种 加 速 方法 仅 在 初始 选 代 充 分 接近 9 时 来 提高 收敛 速 
BE. 在 用 该 加 速 方法 之 前 要 取 普 通 EM 的 若干 次 初始 迭代 以 使 (4.69) 式 成 立 . 
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2， 拟 Newton 加 速 
2.2.2 节 第 3 部 分 讨论 的 拟 Newton 优化 方法 依据 
ef) — gf) _ (MOW |r) (4.71) 
对 关于 6 最 大 化 Oje) 给 出 了 更 新 , 其 中 MO £6 |x) 的 近似 . 在 EM 框架 


F, 我 们 可 以 把 "(6 中 |z) 分 解 成 一 个 在 EM 期 间 计算 的 部 分 和 一 个 余 项 . 通过 对 
(4.19) 式 求 二 阶 导 , 我 们 得 出 在 第 t PERA 


16 fe) = QOO) go Z "10 )| go (4.72) 
余 项 是 (4.72) 的 最 后 一 项 ; 假如 用 BO 近似 它 , 那么 把 
MY = Q"(00)|, 4. 一 BO (4.73) 


代入 (4.71), 可 得 到 一 个 拟 Newton EM 加 速 . 

此 方法 的 关键 是 怎样 用 BO 近似 Holo). 此 处 的 想法 是 以 BO = 0 为 初 
始 值 , 并 随 着 迭代 的 进行 逐步 积累 H” 的 信息 . 信息 是 采用 一 系列 的 正 割 条 件 来 积 
累 的 , 正如 普通 的 拟 Newton 方法 一 样 (2.2.2 节 第 3 部 分 ). 

特别 地 , 我 们 可 以 要 求 BO 满足 正 割 条 件 


五 t+Dab = pO, (4.74) 
其 中 
al) = 9) _ 9), (4.75) 
A 
b® = 五 "(8|64+D) ee es H’ (aa) athe (4.76) 
由 更 新 方程 (2.49), 为 满足 正 割 条 件 我 们 可 以 设 
BOY = BO + cv) (v0))T, (4.77) 


其 中 uv = 6 — Ba H cl) = oa 

Lange 提出 了 该 拟 Newton EM 算法 和 一 些 改进 其 表现 的 策略 [348]. 首先 , 他 
BW BO = 0 Fih. 注意 这 意味 着 第 一 次 增 量 等 于 EM 梯度 的 增 量 ， 实 际 上 ， 
EM 梯度 算法 恰 是 最 大 化 Q(00®) 的 Newton-Raphson 算法 , 而 这 里 描述 的 方法 
成 为 最 大 化 1(8|z) 的 近似 Newton-Raphson 算法 . 

其 次 , 如 果 (v)Ta = 0 R (v)Ta 与 lw 四 .ja 相 比 很 小 , 则 Davidon 
的 改进 将 不 很 顺利 . 在 这 种 情况 下 我 们 可 以 简单 地 设 B+9 = BO, 
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再 次 , 不 能 保证 MO = Q”(9|9 中 )| go — BO 将 是 负 定 的 , 该 条 件 确保 第 
步 是 上 升 的 . 因此 , 我 们 可 以 按 比例 缩放 BO 且 运 用 MO = Q"(ele®)| 
af) BO， 其 中 , 举例 来 说 , 对 使 得 MG 负 定 的 最 小 正 整 数 m, al) = 2-". 

最 后 , 注意 y 可 以 完全 用 Q 函数 来 表示 , 因为 

poe H'(0lo*™)| 一 于 (eleetD)| oo (4.78) 


0-0 7 


e=0+)) 


=0 - H'(010)| (4.79) 


e=0) 
= (t) _o’ (t+1) 
= 2810 go — FIO) | guy 


等 式 (4.79) 由 (4.19) 及 i(6|z) — Q(0|0®) 在 9 = 0 处 有 最 小 值 这 一 事实 得 到 . 
在 该 最 小 值 点 的 导数 必 为 0, 这 就 使 得 L(9|z) = Q(010)| cos 于 是 得 到 (4.80). 
例 4.11 ( 椒 花 蛾 , 续 ) 用 (4.64)-(4.66) 给 出 的 Q” 的 表达 式 并 从 (4.80) 得 到 OM, 
我 们 可 以 将 拟 Newton 加 速 法 用 于 例 4.2. 该 法 从 pc = pi = pr =1/3 和 Bo=0 
开始 , 且 步 长 减 半 以 确保 上 升 . 

结果 在 图 4.3 中 给 出 . 注意 BO = 0 意味 着 拟 Newton EM 的 第 一 步 与 EM Bh 
度 的 第 一 步 相同 , 拟 Newton EM 的 第 二 步 完 全 超越 了 最 高 似 然 的 岭 迹 , 导致 了 几 
乎 没有 上 升 的 一 步 . 一 般 说 来 , W Newton EM 过 程 表 现 得 和 其 他 拟 Newton 法 相 
似 : 它们 都 会 有 一 个 超越 解 或 收敛 到 一 个 局 部 极 大 值 点 而 不 sep al 
势 , 通过 合适 的 预防 措施 , 此 算法 在 这 个 例子 中 快速 而 有 效 . 

拟 Newton EM 在 第 t 步 需要 求 MO HW. Lange 等 人 描述 了 一 种 站 于 由 
MO 近似 -以 (8lz) 的 拟 Newton 方法 , 此 法 依赖 于 逆 切 更 新 [349, 350]， 除 避免 
和 矩阵 求 逆 的 繁 元 计算 之 外 , 当 M 步 可 解 时 , 对 9 和 BO 这 样 的 更 新 可 以 完全 用 
U(0 |) 和 普通 EM 增 量 表示 . 

Jamshidian 和 Jennrich 详细 阑 述 了 逆 切 更 新 法 并 讨论 了 更 为 复杂 的 BFGS X 
法 [301]. 他 们 还 给 出 了 对 多 种 EM 加 速算 法 的 实用 调查 并 且 比 较 了 这 些 算法 的 效 
FR. 在 某 些 例子 中 , 他 们 的 某 些 方法 比 上 面 给 出 的 方法 收敛 得 更 快 . 他 们 在 一 篇 相 
关 的 文章 中 给 出 了 EM 的 共 思 梯度 加 速 法 [300]. 


(4.80) 


问 题 


4.1 回顾 例 4.2 给 出 的 椒 花 蛾 分 析 . 在 田间 , 由 于 翅膀 的 颜色 和 斑点 的 变异 , 区 分 岛屿 和 典型 
这 两 种 表 型 比较 困难 . 除了 这 个 例子 提 到 的 622 只 椒 花 蛾 , 假设 科研 人 员 收 集 的 样本 实 
际 上 包括 nu = 578 只 更 多 的 蛾 子 , 且 已 知 它们 是 岛屿 或 典型 但 不 能 确定 各 自 的 精确 表 
型 . 

(a) 由 上 面 给 出 的 已 观测 数据 nc, ni, nr 和 nu, 对 该 修正 的 问题 , 导出 popi 和 pr 的 
极 大 似 然 估 计 的 EM 算法 . 
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4.2 


(b) 应 用 此 算法 求 出 极 大 似 然 估 计 . 

(c) 用 SEM 算法 估计 fo, Pi 和 并 的 标准 误 及 它们 两 两 之 间 的 相关 系数 . 

(a) 用 自助 法 估计 po, pr 和 并 的 标准 误 及 它们 两 两 之 间 的 相关 系数 . 

(e) 对 这 些 数据 实施 EM 梯度 算法 . 用 步 长 减 半 的 试验 以 确保 上 升 , 并 用 其 他 的 步 长 缩 
放 试 验 以 加 速 收敛 . 

(£) 对 这 些 数据 实施 Aitken 加 速 EM 算法 . 使 用 步 长 减 半 . 

(g) 对 这 些 数据 实施 拟 Newton EM 算法 . 比较 步 长 减 半 和 步 长 不 减 半 的 表现 . 

(h) 比较 标准 EM 算法 和 (e), (£) 和 (g) 中 三 种 变型 的 有 效 性 和 效率 . 用 步 长 减 半 以 确 
定 这 三 种 变型 是 上 升 的 . 针对 不 同 的 初始 点 作 比较 . 作出 类 似 于 图 4.3 的 图 形 . 
流行 病 学 家 对 研究 冒 HIV 感染 风险 的 个 体 性 行为 感 兴趣 , 假设 1 500 名 男 同性 恋 者 被 
调查 并 被 询问 在 过 去 的 30 天 里 每 人 有 多 少 次 危险 性 行为 . 令 mi 表示 回答 有 i 次 危险 

性 行为 的 人 数 , 这 里 i= 1,… ,16. 表 4.2 列 出 了 他 们 的 回答 . 


表 4.2 ”回答 有 相应 次 数 危险 性 行为 的 人 数 ; 见 问题 4.2 


性 行为 数 , i 0 a 2 3 4 5 6 7 8 
AM, ni 379 299 222 145 109 9% 73 59 45 
性 行为 数 , i 9 10 11 12 13 14 15 16 
AB ni 30 24 12 4 2 0 1 1 


Poisson 模型 拟 合 这 些 数 据 的 效果 很 差 ， 假设 这 些 人 可 以 分 为 三 组 更 为 实际 . 首先 ， 
有 一 组 人 , 无 论 出 于 什么 原因 , 即使 是 不 真实 的 , 仍 回 答 了 有 0 次 危险 行为 . 假定 个 体 属 
于 这 一 组 的 概率 为 a. 

个 体 属于 第 二 组 的 概率 为 8, 他 们 声称 有 典型 的 行为 . 这 些 人 的 回答 是 真实 的 , 且 假 
定 他 们 进行 危险 行为 的 次 数 服从 参数 为 u 的 Poisson 分 布 . 

最 后 , 个 体 属于 高 危险 组 的 概率 为 1-a- 8. 这 些 人 的 回答 是 真实 的 , 且 他 们 进行 
危险 性 行为 的 次 数 服 从 参数 为 A 的 Poisson 分 布 . 

模型 的 参数 为 a, p, u 和 和. 在 EM 的 第 t 次 迭代 中 , 我 们 用 A = (al, 89, p9, 
AO) 表示 当前 参数 值 . 观测 数据 的 似 然 为 


16 
L(A|no,--- ,me) « T] fmi(9)/i!]™, (4.81) 
=0 
其 中 对 i= 1,… ,16， 
Ti(0) = alti0) + Pp exp{—n} + (1 — a ~ P)X exp{—d}. (4.82) 


观测 到 的 数据 为 no， … nic. 完全 数据 可 以 分 析 为 nz,0, no0,… ,ne 和 mpo……， 
nip,16, 其 中 nei 表示 在 第 大 组 中 回答 有 i 次 危险 性 行为 的 人 数 且 大 = z,t 和 分别 对 应 
0 组 、 典 型 组 和 性 乱 交 组 . 因而 no = mz,o 十 nz,o 十 npio HX i =1,--- ,16, ns = ni,i +p i- 
$ N= Ý m: =1500. 


i=0 
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对 i 二 0,1,… ,16, 定义 


z0(8) = aa (4.83) 
t(0)= aea, (4.84) 
pi(0) = ee (4.85) 
他 们 对 应 于 有 i 次 危险 性 行为 的 人 属于 各 组 的 概率 . 
(a) 说 明 EM 算法 可 给 出 如 下 更 新 : 
al) = nozo(0®)/N, (4.86) 
16 
BEM =Y niti(O)/N, (4.87) 
ae 
D init.(0) 
ptt) as 3 ` (4.88) 
> niti(O) 
& 
16 
D inp:(0®) 
和 t+D 一 eee a (4.89) 
dm) 


(b) 由 观测 数据 估计 模型 的 参数 . 
(c) 用 任 一 可 用 的 方法 估计 所 估 参 数 的 标准 误 和 它们 两 两 之 间 的 相关 系数 . 


4.3 ”本 书 的 网 站 里 有 从 Nalu, D) 分 布 抽 取 的 50 个 三 维 数据 点 ， 某 些 数据 点 在 一 个 分 量 或 


多 个 分 量 上 有 缺失 值 . 50 个 观测 值 里 只 有 27 个 是 完全 的 . 

(a) 导出 AS 联合 极 大 似 然 估 计 的 EM 算法 . 最 容易 想到 的 是 多 元 正 态 密度 属于 指 
数 族 . 

(b) 由 合适 的 初始 点 确定 它们 的 极 大 似 然 估 计 . 考查 这 个 算法 的 表现 , 并 评价 所 得 结果 . 


(c) 当 
1 06 1.2 
= ( 06 05 0.5 
1.2 0.5 3.0 


已 知 时 , 考虑 u 的 Bayes 推断 . 假设 的 三 个 元 素 有 独立 的 先 验 . 特别 地 , 设 第 j 
个 先 验 为 
faye exp{~(uj = 0)/B;} 
Bill + exp{—(uy — 03)/B;H? 
其 中 (au 02,03) = (2,4,6) EX} j = 1,2,3, Bi = 2. 评论 一 下 在 实施 标准 EM 算 
法 估计 u 的 后 验 众 数 中 可 能 会 遇 到 的 困难 . 实施 梯度 EM 算法 , 并 评估 它 的 表现 . 
(d) 假定 (c) 中 的 E 未 知 且 采用 了 不 恰当 的 均匀 先 验 ， 即 : 对 所 有 的 正定 阵 DBA 
f(D) x 1. 讨论 怎样 估计 u AD 的 后 验 众 数 . 
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4.5 


假定 我 们 观测 了 某 采 矿 设备 中 的 14 个 齿轮 联 轴 器 的 寿命 , 如 表 4.3 所 示 (以 年 记 ). 这 
些 数据 中 有 一 部 分 是 右 删 失 的 ， 因 为 在 齿轮 联 轴 器 坏 掉 之 前 该 设备 就 被 换 下 了 .这些 删 
失 数 据 用 括号 括 了 起 来 , 这 些 元 件 的 真实 寿命 可 以 看 成 是 缺失 的 . 


表 4.3 采矿 设备 的 14 个 齿轮 联 轴 器 的 寿命 ， 以 年 记 . 右 删 失 数据 用 括号 括 了 起 来 . 
在 这 些 情形 , 我 们 知道 其 寿命 至 少 与 给 出 的 值 一 样 长 


(6.94) 5.50 4.54 214 (3.65) (3.40) (4.38) 
10.24 4.56 9.42 (4.55) (4.15) 5.64 (10.23) 


用 密度 函数 为 f(z) = abr’ exp{—az'}(z > 0) 且 参 数 为 a Al b 的 Weibull 分 布 
对 这 些 数据 建 模 . 第 2 章 的 问题 2.3 曾 对 这 类 模型 给 出 了 更 多 的 细节 . 构造 一 个 EM 算 
法 来 估计 a Alb. 因为 Q 函数 包含 不 可 解析 求 出 的 期 望 , 有 必要 时 采用 MCEM 策略 . 
而 且 , Q 的 优化 不 会 是 完全 可 解析 的 . 因此 必要 时 结合 对 各 参数 条 件 最 大 化 的 ECM 策 
略 , 并 运用 一 维 的 类 Newton 优化 . 过 去 的 观测 表明 (a,b) = (0.003, 2.5) 是 一 个 合适 的 
初始 点 . 讨论 你 推导 的 过 程 的 收敛 性 和 得 到 的 结果 . 与 采用 二 元 拟 Newton 方法 直接 地 
大 化 观测 数据 的 似 然 相 比 , 你 的 方法 的 优 缺 点 是 什么 ? 
隐 马 尔 可 夫 模 型 (HMM) 可 以 用 来 描述 一 个 未 观测 ( 隐 性 ) 的 离散 状态 变量 的 序列 H = 
(Ho,… , Hn) 和 一 个 与 之 对 应 的 观测 变量 的 序列 O = (Oo, +++ ,On) 的 联合 概率 , 其 中 
对 每 个 i, O HOB Hi. 我 们 称 Hy, 发 射 Oi; 这 里 只 考虑 离散 的 发 射 变量 , 假设 H 和 
O 的 元 素 的 状态 空间 分 别 为 HA E. 

令 Oc; 和 O>; 分 别 表示 O 中 下 标 不 超过 j 和 超过 j 的 部 分 , 对 五 也 定义 类 似 
的 部 分 序列 . 在 HMM 模型 下 , H; 有 马 氏 性 


P[HilH <i—1, Oo] = P[Hi\|Hi-1), (4.90) 
且 发 射 变量 是 条 件 独立 的 , 因此 
P(O;|H,O<i-1,O>:) = P[Oi|Hi). (4.91) 


隐 性 状态 之 间 的 时 间 齐 性 转移 取决 于 转移 概率 p(h,h*) = P[Hiti = h*|Hi = h], 其 中 

hyh* EH. Ho 的 分 布 被 r(h) = P[Ho = h] 参数 表示 , 其 中 AEH. 最 后 , 定义 发 射 概 

率 e(h,o) = P[O; = olHi = h}, MH he H Hoe E. 那么 参数 集 0 = (x, P, E) 完全 

地 参数 化 了 此 模型 , 其 中 r 是 初始 状态 概率 向 量 , 已 是 转移 概率 阵 , E 是 发 射 概率 阵 . 
对 一 观测 的 序列 o, 定义 前 进 变量 


a(i,h) = PIO< = o<i, Hi = h] (4.92) 
和 后 退 变量 

Bli, h) = P[O>: = o>:|Hi = h] (4.93) 

其 中 i 二 1,… ,n 且 he XK. 我 们 的 记号 隐 去 了 前 进 变量 和 后 退 变 量 对 9 的 依赖 . 注意 

P[O = 00] = > a(n,h) = D7(h)el(h, 00)B8(0, h). (4.94) 


hen nen 
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根据 P[H; = hlO = 0,0] = E a(i,h)G(i,h)/P[O = ol6], 前 进 变量 和 后 退 变量 对 计 


hen 

算 给 定 O = o 时 状态 h 出 现在 序列 第 i 个 位 置 的 概率 , 以 及 关于 这 些 概率 的 状态 函数 
的 期 望 也 是 有 用 的 . 
(a) 说 明 下 面 的 算法 可 以 用 来 计算 ali, h) 和 pli, h). 

前 进 算法 为 

o 初始 化 a(0, h) = m(h)e(h, o0). 

.对 i=0,.…,n 一 1 令 a(li+1,h)= S a(i, h*)p(h*, h)e(h, 0:41). 

re 

后 退 算法 为 

© 初始 化 B(n,h) = 1. 

eM i=n,---,1,4 Bi-1,h)= en p(h, h* )e(h*, 0:)8(h, i). 

PE 

与 盲目 地 在 所 有 可 能 的 状态 序列 上 求 和 相 比 , 这 些 算法 为 求 PIO = 00) 和 其 他 有 

用 的 概率 提供 了 非常 有 效 的 方法 . 
(b) 设 N(h) 表示 Ho =h 的 次 数 , N(h,h*) 表示 从 h 转移 到 h” 的 次 数 , 并 设 N(h, 0) 

表示 当前 状态 为 h 时 o 的 发 射 数 , 证 明 这 些 随机 变量 有 如 下 期 望 : 


(0, h)B(0, h) 


EEN) = EEE, (4.96) 
BONA My) =F MRA GELD, gg 
i=0 
E{N(h,0)}= Y e (4.97) 
iOi=0 


(c) Baum-Welch 算法 能 有 效 地 估计 HMM 模型 的 参数 [22]， 拟 合 这 类 模型 已 被 证 实 
在 不 同 的 应 用 中 相当 有 效 , 这 些 应 用 包括 统计 遗传 学 、 信 号 处 理 、 语 音 识别 、 涉 及 环 
境 时 间 序 列 的 问题 以 及 Bayes 图 网 络 [149, 207, 317, 342, 441). 由 某 初 值 6(0) FF 
始 , Baum-Welch 算法 可 通过 迁 代 应 用 如 下 更 新 公式 进行 : 


tn ENCUDIeO) 
nS NAO re 
heen 
men _ __ E{N (A, h*)10} 
PONY SS BG OOP" 
hEn 
elh, ott) = EAN (0) 0} (4.100) 


DEN (A, ol9 
ot ee 


证 明 Baum-Welch 算法 是 一 种 EM 算法 . 开始 前 值得 注意 到 完全 数据 似 然 是 由 下 
式 给 出 的 


TL 7)” TI Teo? IT IT phan. (4.101) 


nen hen o€E REM ATE 
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(a) 


(e) 


考虑 如 下 情形 .Flip 的 左 口袋 里 有 一 枚 一 分 硬币 , 右 口 袋 里 有 一 枚 一 角 硬 币 ， 在 公 
VERN, 一 分 硬币 和 一 角 硬 币 正 面 朝 上 的 概率 分 别 为 p 和 d. Flip 随机 地 选 出 一 
枚 硬币 投掷 , 并 报 出 结果 (正面 或 反面 ) 但 不 透露 投掷 的 是 哪 枚 硬币 .然后 Flip 决 
定 是 用 这 枚 硬币 继续 投掷 还 是 换 一 枚 硬币 投掷 , 他 改变 硬币 的 概率 为 。 保留 这 枚 
硬币 的 概率 为 1 — s. 他 报 出 第 二 次 投掷 的 结果 , 仍然 不 透露 投掷 的 是 哪 枚 硬币 . 4k 
续 该 过 程 , 总 共 进行 200 次 投 币 . 产生 的 正面 和 反面 的 序列 可 在 本 书 的 网 站 上 找到 . 
用 Baum-Welch 算法 估计 p, d, s. 

仅 供 喜欢 额外 挑战 的 学 生 思考 : 对 数据 集 是 由 某 HMM 产生 的 M 个 独立 观测 序列 
组 成 的 情形 , 推导 Baum-Welch 算法 . 依据 上 面 硬币 的 例子 模拟 这 样 的 数据 . (你 可 
能 想 模拟 单列 数据 , 这 些 数据 可 由 p = 0.25, d = 0.85 和 s = 0.1 模拟 得 到 )， 编 制 
Baum-Welch 算法 的 程序 , 并 用 你 模拟 的 数据 进行 测试 . 

除 考虑 多 重 序列 外 , 为 得 到 基于 更 一 般 的 发 射 变量 和 有 更 复杂 参数 设置 (包括 时 间 
非 齐 次 ) 的 发 射 和 转移 概率 之 上 的 估计 ，HMM 模型 和 Baum-Welch 算法 可 加 以 
推广 . 


第 5 章 数值 积分 


考虑 形 如 [ seu 的 一 维 积分 . 只 有 少数 函数 f 的 积分 值 能 解析 得 到 . 对 


其 余 的 大 部 分 函数 , 积分 的 数值 近似 常 是 有 用 的 ， 近 似 方法 已 为 数值 分 析 家 [120， 
310, 328, 436] 和 统计 学 家 [349, 534) 所 熟知 . 

由 于 后 验 分 布 可 能 不 属于 一 个 熟悉 的 分 布 族 , Bayes 推断 经 常 需 要 积分 的 近似 . 
在 某 些 极 大 似 然 推断 问题 中 , 当 似 然 本 身 是 一 个 或 多 个 积分 的 函数 时 , 积分 近似 也 
很 有 用 . 如 在 下 面 的 例 5.1 中 所 讨论 的 , 当 拟 合 广义 线性 混合 模型 时 就 会 出 现 这 样 
wee. ， 

为 得 到 j: jz)dz 的 一 个 近似 值 , E (0, 6] 划分 为 n 个 子 区 间 fos, ei), 


b noi priy 
i=0,…,n 一 1, HP zo = a,zn =b. 于 是 / fade => f jz)dz. 这 种 复 
a i=0 Vti 


化 法 则 将 整个 积分 分 为 许多 更 小 的 部 分 , 但 推迟 了 解决 怎样 近似 任 一 单个 部 分 的 
问题 . 

单个 部 分 的 近似 值 用 一 个 简单 法 则 得 到 . 在 区 间 [zi,zit1] 中 插入 m 十 1 个 节 
Arh j=0, ,m. 图 5.1 说 明了 区 间 [a,b] 与 子 区 间 以 及 节点 的 关系 . 一 般 来 说 ， 
数值 积分 方法 既 不 需要 子 区 间或 节点 等 距 也 不 需要 在 各 子 区 间 内 有 相同 的 节点 数 . 


f(s) 


T Th tia cte. 
a=2y aa T= rim ote, bss, 

图 5.1 在 a 和 5 之 间 对 积分 , 区 间 分 成 n 个 子 区 间 mri] 每 一 个 被 mm 十 1 个 节点 

Zio,… th, 进一步 划分 .注意 到 当 m = 0 时 , 子 区 间 [eiri] 只 包含 一 个 内 点 


Lip = Ti 
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简单 法 则 依赖 于 近似 
[U oiy Aste 61) 
z: j=0 


对 常数 45 的 某 集合 成 立 . 这 样 一 来 , 总 积分 就 可 按照 复 化 法 则 将 所 有 子 区 间 上 的 
(5.1) 式 求 和 来 近似 . 


5.1 Newton-Côtes 求 积 


Newton-Cotes 法 则 是 一 类 简单 而 灵活 的 积分 方法 . 在 该 情形 , 节点 在 [zi 2141) 
内 等 距 , 并 且 在 每 个 子 区 间 内 采用 相同 数目 的 节点 . Newton-Cotes 方法 在 各 子 区 间 
上 用 多 项 式 近似 代替 实际 的 被 积 函数 . 选取 常数 Ay 使 得 之 Ai f (ej) 等 于 某 插 


值 多 项 式 在 [zi zi+1] 上 的 积分 值 , 而 该 多 项 式 与 f 在 该 子 区 同 内 节点 处 的 值 相等 
下 面 回顾 一 下 常见 的 Newton-Cates 法 则 . 


5.1.1 Riemann 法 则 


考虑 m = 0 的 情形 . 假设 我 们 定义 z% = ri, A Aio = zi+l 一 zi. 简单 Riemann 
法 则 实际 是 在 每 个 子 区 间 上 用 某 常 函数 f(zi), 来 近似 f, 该 常 函数 的 值 等 于 f 在 
区 间 上 某 点 的 值 . 换 句 话说 ， 


[Oo toam f" pedae = (in -efe (5.2) 


复 化 法 则 将 n 个 这 样 的 项 加 和 就 给 出 区 间 fa, b) 上 积分 的 一 个 近似 值 . 
假设 x; 等 距 , 这 样 每 个 子 区 间 有 相同 的 长 度 h = (b - a)/n. 于 是 我 们 可 以 记 
a, =a+ih, 且 复 化 法 则 为 


n-1 
[teen >》 f(a + ih) = R(n). (5.3) 
* i=0 


如 图 5.2 所 示 , 这 对 应 于 初等 微 积分 中 学 过 的 Riemann 积分 . 此 外 , 对 子 区 间 
的 左 端点 并 无 特别 对 待 : 在 (5.2) 中 我 们 也 可 以 用 f(e) 代替 f(zi). 

由 可 积 函数 Riemann 积分 的 定义 知 , 当 n 一 co 时 , 由 (5.3) 给 出 的 近似 值 收 
敛 到 积分 的 真实 值 . WR f 是 一 个 零 阶 多 项 式 ( 即 常 函数 ), 那么 f 在 每 个 子 区 间 
上 是 常数 , 这 时 Riemann 法 则 是 精确 的 . 

当 使 用 复 化 Riemann 法 则 时 , 值得 对 子 区 间 数 的 一 个 递增 序列 wk, 大 = 1,2,…， 
计算 一 列 近似 值 Rin). BA, Rins) 的 收敛 性 可 以 使 用 第 2 章 讨论 的 一 个 绝对 或 
相对 收敛 准则 来 监控 . 采用 ni1 = 2nk 是 特别 有 效 的 , 这 样 在 下 一 步 可 将 对 应 于 
前 一 步 端点 的 子 区 间 减 半 . 这 就 避免 了 对 f 明显 多 余 的 计算 . 
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| 
| Riemann | Hrvapezoidall | Simpson's | 
1 m=0 | {om=1 | | m=2 } 
| | ! | | | 
n= sin Ti= To z= T= Ti Ti 三 
图 5.2 Riemann 法 则 、 梯 形 法 则 和 Simpson 法 则 在 子 区 间 [zi, ri) 上 对 f( 实 线 ) 的 近似 


(虚线 ) 


例 5.1 (阿尔 茨 海 默 (Alzheimer) 病 ) 阿尔 蒋 海 默 病 是 一 种 表现 为 进行 性 智力 衰 
退 特征 的 疾病 . 表 5.1 给 出 了 22 位 阿尔 芯 海 默 病人 的 数据 ， 在 连续 五 个 月 中 的 每 
个 月 里 , 要 求 患者 回忆 先前 给 出 的 某 标准 列表 中 的 单词 , 并 记录 每 位 患者 回忆 起 的 
单词 数 . 表 5.1 中 的 患者 正在 接受 一 项 卵 磷脂 的 实验 治疗 , 这 是 一 种 膳食 补充 . 令 
人 感 兴趣 的 研究 是 随 着 时 间 的 推移 记忆 力 能 否 提高 . 这 些 病 人 的 数据 (以 及 25 个 
控制 病例 ) 可 以 在 本 书 的 网 站 上 找到 并 在 [134] 中 有 进一步 的 讨论 . 


表 5.1 22 个 接受 卵 磷脂 治疗 的 阿尔 茨 海 软 病人 连续 5 个 月 中 回忆 起 的 单词 数 


月 病 ”人 

1 2 3 4 5 6 T 8 9 10 11 
T 9 6 13 9 6 11 7 8 3 4 11 
2 12 7 18 10 T St 10 18 3 10 10 
3 16 10 14 12 8 12 11 19 3 11 10 
4 17 15 21 14 9 14 12 19 t 17 15 
5 18 16 21 15 12 16 14 22 8 18 16 
月 病 A 

12 13 14 15 16 17 18 19 20 21 22 
1 1 6 0 18 15 10 9 4 4 10 
2 3 7 3 18 15 14 6 9 3 13 11 
3 2 g: 3 19 15 16 7 13 4 13 13 
4 4 9 4 22 18 17 9 16 T 16 17 
5 5 10 6 22 19 19 10 20 9 19 21 


考虑 用 一 个 非常 简单 的 广义 线性 混合 模型 拟 合 这 些 数据 [63, 571]. $ Yi; 表示 
第 i 个 人 在 第 ; 月 回忆 起 的 单词 数 ,i = 1,… ,22, j = 1,… ,5. 假设 Yj| 和 i; 服从 参 
数 为 Ni 的 独立 Poisson 分 布 , 其 中 Y 的 均值 和 方差 都 是 和 ij. 令 ay = (1 j)T 为 
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一 个 协 变量 向 量 : 除了 截 矩 项 外 只 有 月 份 用 作 预 测 变量 . $ B = (Bo 6)" 为 对 应 
于 z 的 参数 向 量 . 这 样 我 们 得 到 Yy 均值 的 模型 为 


Mj =exp{25B + vi}, (5.4) 


其 中 y 是 服从 N00, 02) 的 独立 随机 效应 . 这 个 模型 允许 对 每 个 患者 来 说 Xi 在 对 
数 R 度 下 有 单独 的 信息 这 反映 了 患者 之 间 在 单词 个 数 上 可 能 存在 本 质 差 异 这 一 假 
设 . 这 是 合理 的 , 比如 , 如 果 治 疗 开始 前 患者 的 基本 状况 变化 多 样 时 . 

在 该 模型 下 , 似 然 函数 为 


22 5 
L(B, 03ly) -JI f [ss0,03) TI fevalas)] ex 
i=l j=l 


22 
=[[ AG, o3|y), (5.5) 


i=1 


其 中 f(yijl 和 ij) 是 Poisson 密度 , (yi; 0,02) 是 均值 为 0, 方差 为 02 的 正 态 密度 函 
数 , Y 是 所 有 已 观测 的 响应 值 的 一 个 向 量 . 因此 , 对 数 似 然 是 


1(B,02|y) = -Dupe oly), (5.6) 


其 中 4 表示 第 i 个 患者 的 数据 对 对 数 似 然 的 贡献 . 

为 极 大 化 对 数 似 然 , 我 们 必须 将 1 关于 每 个 参数 求 导 并 求解 相应 的 得 分 方程 
由 于 方程 解 不 能 解析 得 到 , 这 将 需要 一 个 数值 求 根 方法 . 在 该 例 中 , 我 们 只 看 了 该 
整个 过 程 的 一 小 部 分 : 对 特别 给 定 的 参数 值 和 单个 i 和 k, 如 何 求解 Se. 对 于 在 
求 根 过 程 的 每 次 欠 代 中 试探 的 参数 值 , 这 种 求解 将 重复 进行 . 

令 i= 1= 1. 关于 每 月 变化 率 参数 的 偏 导 为 器 = $/L, 其 中 L 在 (5.5) 
中 隐 定 义 . 此 外 ， 


dL 
nag, | osoo Henan 


-Jå [osoen T] fsb)lan 


5 5 
= f on:0,03) (Em -x TI f@ilausan, (5.7) 
j=1 j=1 


其 中 Ay = exp{Bo + jBi +m). (5.7) 中 的 最 后 一 个 等 式 来 自 于 广义 线性 模型 的 标 
准 分 析 [379]. 
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假定 , 在 优化 的 最 前 面 一 步 , 我 们 从 初始 值 8 = (1.804,0.165) 和 o3 = 0.015" 
开始 . 这 些 开始 值 是 通过 简单 的 探索 分 析 得 到 的 ， 用 B 和 of 的 这 些 值 , 我 们 在 
(5.7) 中 寻求 的 积分 有 如 图 5.3 所 示 的 被 积 函数 . 积分 范围 是 整个 实 线 , 而 我 们 迄今 
只 讨论 了 闭 区间 上 的 积分 .可 以 采用 变换 来 得 到 一 个 在 某 有 限 范围 上 的 等 价 积分 
(参见 5.4.1 节 ), 不 过 为 了 方便 此 处 我 们 在 范围 [-0.07, 0.085] 上 积分 , 因为 被 积 函 
数 的 几乎 所 有 不 可 忽略 的 值 都 落 在 这 个 范围 内 . 


Integrand of 


一 0.05 0 0.05 
~ 


图 5.3 BY 5.1 寻求 对 该 函数 进行 积分 , 该 函数 来 自 阿尔 欧 海 默 病 治疗 者 数据 的 一 个 广义 线性 
混合 模型 


表 5.2 是 一 系列 Riemann 近似 的 结果 以 及 运行 的 相对 误差 . 相对 误差 度量 了 
新 估计 值 相 对 于 原 估计 值 的 变化 率 . 当 这 些 误差 小 于 某 预 先 给 定 的 容许 闹 值 时 ， E 
代 近 似 策略 停止 . 因为 这 个 积分 很 小 , 故 相 对 收敛 准则 要 比 绝对 准则 更 直观 口 


表 5.2 ”使 用 具有 不 同 子 区 间 数 的 Riemann 法 则 得 到 的 (5.7) 式 积分 的 估计 . 所 有 的 估计 
BRT AF 10°. 在 某 相对 收敛 准则 中 使 用 的 误差 在 最 后 一 列 给 出 


子 区 间 数 thot 相对 误差 
2 3.493 884 581 867 69 
4 1.887 610 059 597 80 一 0.46 
8 1.728 903 544 019 71 —0.084 
16 1.728 890 467 491 19 —0.000 007 6 
32 1.728 890 386 086 21 一 0.000 000 047 
64 1.728 890 267 840 32 一 0.000 000 068 
128 1.728 890 184 009 95 一 0.000 000 048 
256 1.728 890 135 515 48 一 0.000 000 028 
512 1.728 890 109 597 01 一 0.000 000 015 
1 024 1.728 890 096 218 30 一 0.000 000 007 7 


5.1.2 ”梯形 法 则 


尽管 简单 Riemann 法 则 在 是 [a,b] 上 的 常数 时 是 精确 的 , 但 一 般 来 说 该 方 
法 收敛 到 足够 精度 的 速度 比较 慢 . 一 个 显而易见 的 改进 是 用 分 段 m 阶 多 项 式 近 似 
代替 分 段 常数 近似 . 
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设 基 本 多 项 式 为 
T EX 
pi (2) = $ I nae (5.8) 
其 中 7 = 0,… ,m. 则 函数 pi(z) = È sei) 是 一 个 m 阶 的 多 项 式 并 且 在 
E 
[ei zi+l] 内 的 所 有 节点 to ,zi 处 插值 f. 图 5.2 显示 了 m= 0,1,2 时 的 这 种 
插值 多 项 式 . 
这 些 多 项 式 是 简单 近似 
Te Hayden 三” ieiz 6.9) 
=》 f(t) f "T palkia (5.10) 
j=0 zi 
=) Af (2%) (5.11) 


j=0 
的 基础 , 其 中 Ay = f “”pu(zjdz， 这 种 近似 方法 使 用 多 项 式 积分 代 蔡 任意 函数 
b 
1 的 积分 ， 当 每 个 子 区间 上 有 m 个 节点 时 ,作为 结果 的 复 化 法 则 是 f fajde x 
n-i m L 
D DAs) 
Mm = lol = tiith = tip 就 得 到 了 梯形 法 则 . 这 时 ，pio(z) = A, 


1 
pil(zZ) = 


pitty 对 这 些 多 项 式 进行 积分 就 得 到 Ao = An = (zi+l - ri)/2. 因此 ， 
梯形 法 则 等 于 


$ S Ti+1 — Ti 
[teen (E) ued + seu. (6.12) 
当 [a,b] 被 均 分 为 长 度 为 h = (b 一 a)/n 的 n 个子 区 间 时 , 梯形 法 则 估计 为 
b n-1 
f f(a)da = O +hD f(atih)+ tro = În). (5.13) 
laí i=1 


该 近似 法 名 称 的 由 来 是 因为 在 每 个 子 区 间 内 f 之 下 的 面积 可 由 梯形 的 面积 近 
似 得 出 , 如 图 5.2 所 示 . 注意 到 f 在 任 一 子 区 间 内 是 被 一 阶 多 项 式 ( 即 一 条 线段 ) 近 
似 得 到 的 , 且 该 多 项 式 在 两 点 处 的 值 等 于 f 的 值 . 因此 当 f AB [a,b] 上 的 一 条 
线段 时 , Pin) 是 精确 的 . 
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例 5.2 (MARRARA, 续 ) 对 子 区 间 数 较 少 的 情形 , 由 于 积分 范围 端点 处 的 被 积 
函数 几乎 为 零 , 对 例 5.1 的 积分 应 用 梯形 法 则 得 到 了 与 Riemann 法 则 类 似 的 结果 ; 
对 子 区 间 数 较 多 的 情形 , 梯形 法 则 的 近似 比较 好 . 结果 在 表 5.3 中 给 出 . 口 


表 5.3 ”使 用 具有 不 同 子 区 间 数 的 梯形 法 则 得 到 的 (5.7) 式 积分 的 估计 . 所 有 的 估计 值 都 乘 
了 因子 10°. 在 某 相对 收敛 准则 中 使 用 的 误差 在 最 后 一 列 给 出 


子 区 间 数 fit 相对 误差 
2 3.493 877 516 947 44 
4 1.887 606 527 137 68 一 0.46 
8 1.728 901 777 789 65 —0.084 
16 1.728 889 584 376 16 一 0.000 007 1 
32 1.728 889 944 528 69 0.000 000 21 
64 1.728 890 047 061 56 0.000 000 059 
128 1.728 890 073 620 57 0.000 000 015 
256 1.728 890 080 320 79 0.000 000 003 9 
512 1.728 890 081 999 67 0.000 000 000 97 
1024 1.728 890 082 419 62 0.000 000 000 24 


假设 / 有 二 阶 连续 的 导数 问题 5.1 要 求证 明 
pila) = flea) + f'l = m) + FS” (een = z(e — z) + O(N). (6.14) 
从 (5.14) RRE f 在 zi 处 的 Taylor 展开 , 得 到 
plz) = f(0)= 54" ENE- nla = 2143) FOC), (6.15) 


ELH (5.15) RE [zi,zit1] 上 积分 表明 梯形 法 则 在 第 i 个 子 区 间 上 的 近似 误差 为 
h3 f" (@:)/12 +O(n-4). 于 是 由 积分 中 值 定理 知 


F(n) - [ te= > (Ha E a oa) (5.16) 
=nh?" f" (€)/12 + O(n?) (5.17) 

ne% s 7 
-PDO , a, f © o(n-3) (5.18) 


对 某 € € [a 成 立 . 因此 , 总 误差 的 首 项 是 O(n-?) 的 . 
5.1.3 Simpson 法 则 


在 (5.8) 中 取 m = 2, rh = zi, rh = (zi + 2i41)/2 以 及 rh = zit1, 我 们 就 得 到 
Simpson 法 则 . 问题 5.2 要 求证 明 Aio = Aiz = (zitl 一 zi)/6 H. Ain = 2(4io + Ai2). 
这 样 得 到 第 (i 十 1) 个 子 区 间 的 近似 


J i“ fads ~ BA [re +a (+ few] _ 6419 
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图 5.2 显示 了 Simpson 法 则 是 如 何在 每 个 子 区 间 上 对 f 进行 二 次 近似 的 . 

假设 区 间 [a,4] 被 均 分 为 长 度 为 产 = (b-a)/n 的 n 个 子 区 间 , 其 中 ”为 偶数 
为 应 用 Simpson 法 则 , 我 们 需要 在 每 个 [zi, ri+l] 内 有 一 个 内 节点 . 因为 n 为 偶数 ， 
我 们 可 以 将 两 个 相 邻 子 区 间 合 并 , 取 公共 端点 作为 较 大 区 间 的 内 节点 . 这 样 就 得 到 
n/2 个 长 度 为 2h 的 子 区 间 , 于 是 


b n/2 A 
J f(z)dz ~ 4 L (Fania) + 4f (aia) + f(z2i)) = S(n/2). (5.20) 


例 5.3 (阿尔 茨 海 默 病 , 续 ) 表 5.4 给 出 了 对 例 5.1 的 积分 应 用 Simpson 法 则 的 结 
R. 在 每 个 子 区 间 上 要 计算 一 个 端点 和 一 个 内 节点 处 的 值 . 因此 对 固定 的 子 区 间 数 ， 
Simpson 法 则 需要 的 对 Í 值 的 计算 量 是 Riemann 法 则 和 梯形 法 则 的 两 倍 . 由 此 例 ， 
我 们 表明 Simpson 法 则 的 精度 足以 补偿 增加 的 计算 量 . 从 另 一 个 观点 来 看 , 若 对 每 
种 方法 固定 要 计算 的 f 个 数 为 n, WR n 足够 大 , 则 我 们 将 预期 Simpson 法 则 要 优 
于 前 面 的 方法 . 口 


表 5.4 ”使 用 具有 不 同 子 区 间 数 的 Simpson 法 则 得 到 的 〈5.7) 式 积分 的 估计 . 所 有 的 估计 
值 都 乘 了 因子 10°. 在 某 相 对 收敛 准则 中 使 用 的 误差 在 最 后 一 列 给 出 


子 区 间 数 估 计 相对 误差 
2 1.352 182 863 867 76 
4 1.676 000 194 673 64 0.24 
8 1.728 885 519 905 00 0.032 
16 1.728 890 064 579 54 0.000 002 6 
32 1.728 890 081 239 18 0.000 000 009 6 
64 1.728 890 082 473 58 0.000 000 000 71 
128 1.728 890 082 554 19 0.000 000 000 047 
256 1.728 890 082 559 29 0.000 000 000 002 9 
512 1.728 890 082 559 61 0.000 000 000 000 18 
1 024 1.728 890 082 559 63 0.000 000 000 000 014 


WR 了 在 ab) 是 二 次 的 , 则 它 在 每 个 子 区 间 上 也 是 二 次 的 . Simpson 法 则 在 
每 个 子 区 间 上 用 在 三 个 点 上 匹配 f 值 的 二 阶 多 项 式 近似 f, 因此 该 多 项 式 就 是 f. 
于 是 Simpson 法 则 可 精确 地 求 二 次 函数 f 的 积分 . 

假设 f 是 光滑 的 , 但 不 是 多 项 式 , 而 且 我 们 有 n 个 长 度 都 是 2h 的 子 区 间 
[zi zz， 为 评估 Simpson 法 则 的 近似 程度 ,我 们 先 考虑 单个 子 区 间 的 情况 ， 将 
该 子 区 间 上 Simpson 法 则 所 得 结果 记 为 Si(n) = [f(zi) +4 f (zi +h) + f(t: + 2h)], 
积分 的 真实 值 记 为 I. 

我 们 用 f 在 x; 处 的 Taylor 级 数 展开 式 在 z = zi 十 h 和 zx = zi 十 2h 处 的 取 值 
替换 5.(n) 中 的 相应 项 . 合并 项 后 得 到 

100 


Sin) =2hf a) +R f(a) HER" (e) + he" (ea) + ET) + (5.21) 
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现在 令 v(x) = [Ý Oa 该 西数 有 好 的 性 质 , BO F(a.) = 0, Fe, + 2h) = F 
F'(x) = f(z). 将 下 在 zi Xb Taylor 级 数 展开 , 并 取 x = x; + 2h, 得 到 


i = Dif (ea) + 28°F (aa) + SRS" (ei) + SRAM) + PE HPS) +o (6.22) 


从 (5.21) 式 减 去 (5.22) 式 得 到 Si(n) 一 天 = h5 f" (2;)/90 +- = On-5). 这 
就 是 Simpson 法 则 在 单个 子 区 间 上 的 误差 . 于 是 在 划分 [a,b] 的 n 个 子 区 间 上 , 总 
误差 是 这 些 误差 的 和 , 即 O(n-4). 注意 到 Simpson 法 则 因此 也 可 精确 求 三 次 函数 
的 积分 . 


5.1.4 一般 的 阶 法 则 


前 面 的 讨论 提出 了 一 个 一 般 的 问题 : 怎样 确定 一 种 Newton-Cotes 法 则 使 之 对 
k 阶 多 项 式 是 精确 的 . 这 就 需要 常数 co,… ,cx 使 得 对 任意 多 项 式 f 有 


Jade=ara+ery (e+? E) eetas (e+) 十 … 十 ckj (0). (5.23) 


当然 我 们 可 以 对 m = k 参照 上 面 给 出 的 推导 求解 , 不 过 有 另 一 种 简单 的 方法 . 如 
果 一 种 方法 对 所 有 阶 多 项 式 可 精确 求 积分 , 那么 对 一 些 特别 的 容易 求 积分 的 诸 
如 1,z,z2,… ,zt 的 选择 也 必 是 精确 的 . ROPE, 我 们 得 到 k 个 未 知 量 下 的 大 个 方程 
的 方程 组 : 


b 
J ldz = b— a = co +--+ + Ck, 
a 


b , 42 
b-a 
zdr = 
j, 2 


b-a 
= 一 coa 十 cl {at +--+ + xb, 


k 
X on 
/ Zkdz = etc. 
a 


剩 下 的 工作 就 是 求解 c; 以 得 到 算法 . 有 时 称 此 方法 为 待定 系数 法 . 


5.2 Romberg 积 分 


一 般 来 说 , 低 阶 Newton-Cotes 方法 收敛 得 慢 . 不 过 , 在 一 系列 梯形 法 则 估计 之 
上 , 有 一 种 非常 有 效 的 方法 可 提高 收敛 速度 . 令 Iin) 表示 采用 等 长 度 h= (5 一 a)/n 
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b 
的 n FEMA f 
a=0,b=1. BA” 


f(z)dz 的 梯形 法 则 估计 , 如 (5.13) 所 示 . 不 失 一 般 性 , 假设 


FO)=370) + 5400, 
PDO + 5401/2) + 370), 
F= EFO + F0 + 11/2) + 48/0) + BF), (6.24) 


等 等 . 注意 到 


F(a) = 57a) + 340/2, 


Fla) = ZPO) + F/D + 1/4), (5.25) 


等 等 , 提示 一 般 的 递归 关系 为 


Fen) = 37 (n) + sso (i — 1/2)h). (5.26) 


使 用 Euler-Maclaurin 公式 (1.8) 可 知 存在 常数 c 使 得 


于 是 


所 以 ， 


Fn) = f ” Fade + eh? + On-4), (5.27) 
F(2n) = f : f(z)dz+ am +O(n-4). (5.28) 
Fan) — Ten) - -f f(z)dz + O(n-4), (5.29) 


这 样 (5.27) 45 (5.28) 的 h? 误差 项 抵消 了 . 经 过 这 种 简单 的 调整 , 估计 的 精度 得 以 
大 大 提高 . 事实 上 , (5.29) 给 出 的 估计 值 是 Simpson 法 则 使 用 宽度 为 $ 的 子 区 间 得 
到 的 结果 . 而 且 , 这 种 方法 可 以 和 迭代 使 用 以 得 到 更 好 的 结果 . 

首先 定义 To = T(2'), i = 0,… ,m. 然后 对 了 = 1,… ,i 和 i=1,… ,m, 利用 


关系 式 


= UT, 5 SENA 1 


R= T (6.30) 
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定义 估计 值 的 一 个 三 角形 表 如 下 
Too 
Tio Tia 
Tro Toa Tro 
Tso Ts Ro Ra 
To Pan 五 > Tas 五 


注意 (5.30) 也 可 重新 表达 为 TBF j 加 上 py A (Tiga — R-i). 
如 果 f 在 [0,0] 上 有 2m 阶 连续 导数 , 则 上 表 中 第 m 行 的 元 素 在 j< m 时 有 


a fns- f “adz = (2-2) [103, 328). HE EAMES RAFIU m 


值 就 可 以 满足 需要 . 
有 必要 验证 的 一 点 是 Romberg 算法 不 会 随 着 m 的 增 大 而 变 坏 . 为 此 , 考虑 商 


y = ei (5.31) 


Ti; 的 误差 部 分 归于 近似 方法 本 身 , 且 部 分 归于 计算 机 舍 入 导致 的 数值 不 精确 , 只 
要 前 一 种 来 源 占 主要 地 位 , Qu 就 会 随 着 i 的 增 大 接近 4;+1. 然而 如 果 计 算 机 舍 入 
误差 相对 于 近似 误差 来 说 是 主要 的 , 则 Qi 的 值 将 变 得 不 稳定 . Ay 三 角形 表 的 列 
可 以 用 来 确定 商 在 变 坏 前 接近 4 和 +1 的 最 大 的 j. 这 时 不 再 需要 通过 (5.30) 计算 更 
多 的 更 新 列 . 下 面 的 例子 说 明了 这 种 方法 . 

例 5.4 (阿尔 茨 海 默 病 , 续 ) 表 5.5 给 出 了 对 例 5.1 的 积分 应 用 Romberg 积分 的 
GR. 该 表 右边 的 列 用 来 诊断 Romberg 计算 的 稳定 性 , 表 的 顶部 是 j= 0 时 的 结 
果 , D ER 5.3 中 给 出 的 梯形 法 则 估计 . 经 过 某 些 初始 步 后 , 表 项 部 的 商 很 好 地 收 
SF 4. 因此 使 用 (5.30) 来 产生 三 角形 表 的 第 二 列 是 安全 且 可 取 的 . 之 所 以 说 安全 
是 因为 商 收敛 于 4 意味 着 计算 机 舍 入 误差 还 不 是 主要 误差 源 , 之 所 以 说 可 取 是 因 
为 当前 的 积分 估计 值 增加 1/3 的 相应 差 值 后 会 得 到 一 个 显著 不 同 的 更 新 估计 . 

三 角形 表 的 第 二 列 在 表 5.5 的 中 间 部 分 给 出 . 这 部 分 的 商 仍然 比较 合理 , 所 以 
计算 了 第 三 列 并 将 其 显示 在 表 的 底部 . Qo 的 值 接近 64, 对 更 大 的 ; 有 更 多 的 容 差 . 
E i= 10 时 , 计算 机 舍 入 误差 似乎 占 了 主要 地 位 , 因为 商 偏离 了 64. 然而 , 注意 到 
这 个 估计 增加 此 时 差 值 的 2 对 更 新 估计 本 身 的 影响 可 以 忽略 . 在 计算 机 舍 入 误差 
的 增长 量 此 时 影响 甚 微 的 推理 下 , 如 果 多 进行 一 步 , 我 们 将 会 发 现 估计 没 得 到 改进 ， 
而 且 商 也 清楚 地 显示 不 需要 再 考虑 进一步 的 外 推 了 . 

因此 , 我 们 可 以 取 Tyo = 1.728 890 082 559 63 x 10-5 作为 积分 的 估计 值 . 在 这 
个 例子 中 , 对 m = 10 我 们 每 次 计算 了 三 角形 表 的 一 列 . 然而 在 实施 中 , 一 次 产生 
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表 的 一 行 更 可 取 . 在 这 种 情形 , 我 们 将 在 i = 9 后 停止 计算 ， 


更 少 的 子 区 间 和 更 少 的 f 求 值得 到 一 个 精确 的 估计 . 


比 前 面 的 任 一 例子 


口 


表 5.5 使 用 Romberg 积分 得 到 的 (5.7) 式 积分 的 估计 . 所 有 的 估计 值 都 乘 了 因子 10°. 
最 后 两 列 给 出 的 是 正文 中 讨论 的 效果 评价 度量 


i 7 ” 子 区 间 数 Tio Pij -R-i Qij 
1 0 2 3.493 877 516 947 44 
2 0 4 1.887 606 527 137 68 一 1.606 270 989 809 76 
3 0 8 1.728 901 777 789 65 —0.158 704 749 348 03 10.12 
4 0 16 1.728 889 584 376 16 一 0.000 012 193 413 49 13 015.61 
5 0 32 1.728 889 944 528 69 0.000 000 360 152 54 —33.86 
6 0 64 1.728 890 047 061 56 0.000 000 102 532 87 3.51 
7 0 128 1.728 890 073 620 57 0.000 000 026 559 01 3.86 
8 0 256 1.728 890 080 320 79 0.000 000 006 700 22 3.96 
9 0 512 1.728 890 081 999 67 0.000 000 001 678 88 3.99 
10 0 1024 1.728 890 082 419 62 0.000 000 000 419 96 4.00 
1 1 2 
2 at 4 1.325 182 863 867 76 
3 1 8 1.676 000 194 673 64 0.323 817 330 805 89 
4 1 16 1.728 885 519 905 00 0.052 885 325 231 36 6.12 
5 1 32 1.728 890 064 579 54 0.000 004 544 674 54 11 636.77 
6 1 64 1.728 890 081 239 18 0.000 000 016 659 64 272.80 
7 1 128 1.728 890 082 473 58 0.000 000 001 234 39 13.50 
8 1 256 1.728 890 082 554 20 0.000 000 000 080 62 15.31 
9 1 512 1.728 890 082 559 29 0.000 000 000 005 10 15.82 
10 1 1024 1.728 890 082 559 61 0.000 000 000 000 32 16.14 
1 2 2 
2 2 4 
3 2 8 1.697 588 016 727 36 
4 2 16 1.732 411 208 253 75 0.034 823 191 526 29 
5 2 32 1.728 890 367 557 84 —0.003 520 840 695 91 一 9.89 
6 2 64 1.728 890 082 349 83 —0.000 000 285 208 02 12 344.82 
7 2 128 1.728 890 082 555 87 0.000 000 000 206 04 一 1 384.21 
8 2 256 1.728 890 082 559 57 0.000 000 000 003 70 55.66 
9 2 512 1.728 890 082 559 63 0.000 000 000 000 06 59.38 
10 2 1 024 1.728 890 082 559 63 < 0.000 000 000 000 01 一 20.44 


Romberg 方法 可 用 于 其 他 Newton Cates 积分 法 比如 ,着 Sim) 是 f ”yajaz 


使 用 n 个 等 长 子 区 间 的 Simpson 法 则 所 得 的 估计 , 则 (5.29) 式 的 类 似 结果 是 


16S(2n) — Sr 


b 
T = f fla)de + O(n-®). 


(5.32) 
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Romberg 积分 是 Richardson 外 推 法 的 形式 之 一 , 且 后 者 是 一 种 更 一 般 的 策略 
[283, 436]. 


5.3 Gauss 求 积 


以 上 讨论 的 所 有 Newton-Cates 法 则 都 是 基于 等 长 子 区 间 的 . 估计 的 积分 值 是 
被 积 函数 在 正规 格子 点 上 的 加 权 值 之 和 . 对 固定 的 子 区 间 数 和 节点 数 , 只 有 权重 可 
灵活 选取 ; 我 们 已 把 注意 力 限定 在 产生 多 项 式 精 确 积分 的 权重 的 选取 上 . 采用 每 个 
FEM m +1 个 节点 可 得 到 m 阶 多 项 式 的 精确 积分 . 

一 个 重要 的 问题 是 , 如 果 去 掉 等 间距 节点 和 子 区 间 的 约束 , 能 达到 的 改进 量 有 
多 少 . 通过 允许 权重 和 节点 任意 选取 , 在 近似 S 时 我 们 就 有 两 倍 于 原来 的 参数 . 如 
果 积 分 值 主要 是 由 被 积 函数 取 值 较 大 的 区 域 决定 , 那么 在 这 些 区 域 中 就 应 该 设置 较 
多 的 节点 . 当 mm 二 1 个 节点 zo,… ,zm 和 相应 的 权重 Ao,… ,hm 选择 灵活 得 当时 ， 


26m + 1) 阶 多 项 式 的 精确 积分 信 训 可 以 由 / ” ede = “EM 得 到 


这 种 称 为 Gauss 求 积 的 方法 , 对 形 如 [ f(z)w(z)dz 的 积分 特别 有 效 , 其 中 w 


是 非 负 函 数 , 且 对 所 有 的 人， [ Zhw(z)dz < 00, 这 些 条 件 是 对 具有 有 限 各 阶 矩 密度 


函数 的 回顾 . 的 确 , 将 w 作为 密度 常常 是 有 用 的 , 这 时 像 期 望 值 和 Bayes 后 验 归 一 
化 常数 这 样 的 积分 是 Gauss 求 积 的 自然 候选 者 . 然而 通过 定义 f(x) = f(z)/w(z) 


且 应 用 该 方法 到 广 (z)w(z)dz E, 这 种 方法 则 有 更 一 般 的 适用 性 . 
最 好 的 节点 位 置 是 由 w 决定 的 一 组 正 交 多 项 式 的 根 . 
5.3.1 正 交 多 项 式 


为 逐步 阐明 Gauss 求 积 法 , 需要 正 交 多 项 式 的 一 些 预备 知识 [2, 120, 343, 525). 
S ple) 表示 一 个 一 般 的 阶 多 项 式 . 为 方便 , 假定 pk(z) 的 首 项 系数 为 正 . 


wm f 10 f(z)?w(z)dz < 00, 则 称 函数 f XF w 在 [a,b] 上 平方 可 积 . 这 时 我 


MEX f E Lay 对 任意 的 包含 在 L uy 中 的 FAL g, 它们 关于 ww 在 [6 机上 
的 内 积 定义 为 


b 
(fadeion = f Hoglewla)az. (5.33) 


如 果 (Fo) jaa = 0, WER f AI g KF w HE [ad] EER. 如 果 f 和 g 还 进行 了 按 
比例 缩放 , 满足 (F, Awan) = (9,9)wian = 1, AI f Al g 在 [a, 相 上 关于 ww 标准 正 交 . 
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给 定 fo, 引 上 的 任 一 非 负 函数 w, 则 存在 一 列 多 项 式 {pk(z)} 和 2。 KF w H [a,b] 
上 相互 正 交 . 不 经 过 某 种 形式 的 标准 化 , 这 列 多 项 式 是 不 唯一 的 , 因为 (f,g)w a.) = 
0 意味 着 对 任何 常数 c 有 (cf, Iwl = 0. 一 组 正 交 多 项 式 的 正则 标准 化 依赖 于 
这 将 在 后 面 讨论 ; 通常 的 选择 是 取 pk(z) 的 首 项 系数 为 1. 为 在 Gauss 求 积 中 使 
FA, 积分 范围 通常 由 [a,b] 变换 到 [a*,b"], 这 种 变换 依赖 于 w. 

一 组 标准 化 的 正 交 多 项 式 可 以 通过 以 下 递 推 关系 加 以 归纳 


Pk(T) = (ak 十 ZBk)pk-l(z) 一 TkPk-2(7)， (5.34) 


其 中 , an, Be 和 ye Bk AD w 的 变化 而 变化 . 

这 样 一 个 标准 化 集合 里 的 任 一 多 项 式 的 根 都 落 在 (a*,b*) 中 ， 这 些 根 将 作为 
Gauss 求 积 的 节点 . 表 5.6 列 出 了 几 组 正 交 多 项 式 、 它 们 的 标准 化 形式 以 及 它们 与 
普通 密度 函数 的 对 应 . 


R56 正 交 多 项 式 、 它 们 的 标准 化 形式 、 它 们 与 普通 密度 函数 的 对 应 以 及 它们 递归 产生 用 
到 的 项 . 多 项 式 首 项 系数 记 为 c。， 在 某 些 情形 , 为 了 与 熟悉 的 密度 有 最 好 的 对 应 ， 需 


选择 标准 定义 的 变型 
Qk 
名 称 标准 化 形式 Be 
(密度 ) w(z) (a*,b*) Wk 
Jacobi* (1 — z)P-4g071 ck=1 见 [2, 436] 
(Beta) (0, 1) 
Legendre®* 1 Pk(1)=1 (1 — 2k)/k 
(均匀 ) (0, 1) (4k — 2)/k 
(k — 1)/k 
Laguerre exp{—z} ck = (—1)* /k! (2k — 1)/k 
(指数 ) (0, 00) -1/k 
(k = 1)/k 
Laguerre” z" exp{—z} ck = (—1)*/k! (2k — 1+7)/k 
(Gamma) (0, 00) -1/k 
(k-1+r)/k 
Hermite® exp{—z?/2} ch =1 0 
( 正 态 ) (-co,co) 1 
大 一 1 


a 平移 的 . b 广义 的 . c 可 选 形 式 . 
5.3.2 Gauss 求 积 法 则 


像 (5.34) 式 那样 的 标准 化 正 交 多 项 式 非常 重要 , 这 是 因为 在 基于 已 选 定 的 w 
基础 上 , 它们 既 决 定 Gauss 求 积 法 则 中 的 权重 又 决定 节点 ， 设 (2), B- 
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列 在 [a,b] LAF w 的 正 交 多 项 式 , w 满足 前 面 讨论 的 条 件 . 将 pm+i(z) 的 根 用 
a< To <: < Em <b 表示, 则 存在 权重 Ao, , Am WE: 

(1) Aj > 0,2 =0,--- ,m; 

(2) Ai = —em+2/[Cm+1Pm+2(2i)Pin+1(vi)], 其 中 cx 是 pk(z) 的 首 项 系数 . 


b m 
(3) f Fle)w(w)ax = F Afla), 其 中 了 是 阶 数 不 超 过 2m + 1 的 多 项 式 . 也 
就 是 说 , 该 方法 对 任 一 这 样 的 多 项 式 关 于 w 的 期 望 来 说 是 精确 的 . 
(4) 如 果 f 是 2(m + 1) 阶 连续 可 导 的 , 那么 存在 E e (a,b) 使 得 


f tewe- Y ase) FO 
a i0 


“Grand” (5.35) 


该 结果 的 证 明 可 在 [120] 中 找到 . 

虽然 根据 该 结果 和 表 5.6 可 以 计算 出 (m + 1) 点 Gauss 求 积 法 则 的 节点 和 权 
E, 但 是 由 于 潜在 的 数值 不 精确 , 大 家 一 般 不 愿 直接 计算 . 这 些 量 的 数值 稳定 的 计 
算 可 由 现 有 的 公共 软件 得 到 [199, 418]. 另外 , 也 可 以 从 像 在 [2, 337] 中 已 出 版 的 表 
里 得 到 节点 和 权重 . 其 他 已 出 版 表 的 列表 在 [120, 534] 中 给 出 . 

表 5.6 中 的 各 选择 中 , Gauss-Hermite 求 积 尤其 有 用 , 因为 它 使 得 积分 可 以 在 整 
个 实 线 上 进行 ， 正 态 分 布 在 统计 实践 和 极限 理论 中 的 主导 地 位 意味 着 许多 积分 是 
光滑 函数 和 正 态 密 度 的 乘积 ; Gauss-Hermite 求 积 在 Bayes 应 用 中 的 好 处 可 在 [408] 
中 找到 . 
例 5.5 (ARRERA, 续 ) 表 5.7 给 出 了 应 用 Gauss-Hermite 求 积 估计 例 5.1 积 
分 的 结果 . Hermite 多 项 式 在 此 例 中 尤其 适用 , 这 主要 因为 例 5.1 的 被 积 函数 本 就 
应 该 在 整个 实 线 上 积分 而 不 是 在 区 间 (—0.07, 0.085) E. 收敛 非常 快 : 用 8 个 节点 
时 得 到 的 相对 误差 是 Simpson 法 则 用 1 024 个 节点 时 的 一 半 . 表 5.7 中 的 估计 值 与 
以 前 的 例子 不 同 , 因为 积分 范围 不 同 . 应 用 Gauss-Legendre 求 积 并 采用 26 个 节点 
在 区 间 (—0.07, 0.085) 上 得 到 的 估计 值 是 1.728 890 082 559 62 x 10-5. mi 


5.7 ”使 用 具有 不 同 节点 数 的 Gauss-Hermite 求 积 法 则 得 到 的 (5.7) 式 积分 的 估计 , 所 
有 的 估计 值 都 妥 了 因子 10°. 供 在 某 相 对 收敛 准则 中 使 用 的 误差 在 最 后 一 列 给 出 


节点 数 fi 计 相对 误差 
2 1.728 933 061 633 35 
3 1.728 893 990 838 98 一 0.000 023 
4 1.728 890 688 271 01 —0.000 001 9 
5 1.728 890 709 101 31 0.000 000 012 
6 1.728 890 709 143 13 0.000 000 000 024 
7 1.728 890 709 141 66 一 0.000 000 000 000 85 
8 1.728 890 082 141 67 =0.000 000 000 000 007 1 
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Gauss 求 积 与 前 面 讨论 的 Newton-Cates 法 则 大 大 不 同 . 后 者 依赖 潜在 大 量 的 
节点 以 达到 足够 的 精度 , 而 Gauss 求 积 用 明显 较 少量 的 节点 就 常常 非常 准确 . 不 过 
对 Gauss 求 积 , m 点 法 则 的 节点 通常 不 是 (m+ k) 点 法 则 的 节点 ,大 > 1. 回忆 一 下 
针对 Newton-Cotes 法 则 讨论 的 策略 , 子 区 间 的 个 数 是 顺 次 加 倍 的 , 因而 一 半 的 新 
节点 与 原 节点 相同 . 这 对 Gauss 求 积 是 无 效 的 , 因为 每 次 节点 数 增加 都 需要 重新 产 
生 节点 和 权重 . 


5.4 常见 问题 


本 节 简 要 阐述 比 有 限 范围 上 无 奇 点 光滑 函数 的 一 维 积分 更 复杂 问题 的 解决 
策略 . 


5.4.1 ”积分 范围 
无 限 范围 上 的 积分 可 变换 到 有 限 范围 求解. 一 些 实用 的 变换 包括 1/z, PE 


+exp{z}? 

exp{—a} 以 及 rir 任何 累积 分 布 函 数 都 可 以 是 变换 的 潜在 基础 ， 比 如 , 指数 累计 
分 布 函数 将 正 实 线 变换 为 单位 区 间 . 实 值 随机 变量 的 累积 分 布 函数 将 双 侧 无 限 的 
范围 变换 为 单位 区 间 . 当然 , 消除 无 限 范围 的 变换 会 产生 诸如 奇 点 等 其 他 类 型 的 问 
题 . 因此 , 在 可 用 的 选择 里 , 挑选 一 个 合适 的 变换 至 关 重 要 . 粗略 地 说 , 一 个 合适 的 
变换 应 该 产生 像 近 似 常数 那样 易于 处 理 的 被 积 函数 . 

无 限 范围 也 可 用 其 他 方法 处 理 . 例 5.5 举例 说 明了 Gauss-Hermite 求 积 在 实 线 
上 积分 的 使 用 . 另 一 方面 , 当 被 积 函数 在 积分 范围 端点 附近 变 成 零 时 , 被 积 函数 可 
以 用 一 个 可 控 误 差 量 截断 . 例 5.1 就 使 用 了 截断 的 方法 . 

更 多 关于 如 何 选择 合适 变换 的 方法 和 相关 讨论 参见 [120, 534). 


5.4.2 ， 带 奇 点 或 其 他 极端 表现 的 被 积 函数 
奇 点 会 妨碍 积分 法 则 的 表现 ， 多 种 方法 可 用 来 消除 或 控制 奇 点 的 影响 
变换 就 是 其 中 之 一 . 比如 ,考虑 | Ela, 它 有 一 个 奇 点 0. 使 用 变换 “= 
0 


vi Mal 人 ”expfuzjau 就 可 以 轻易 地 求 得 积分 值 
0 


积分 人 1 zo%9 expfzjdz 在 [0,1] 上 没有 奇 点 , 但 是 难以 直接 由 Newton-Cotes 方 
法 求解 . 这 时 变换 也 很 有 用 . 令 u= r oo 得 到 J “expfua/ 000}qu, 它 的 被 积 函数 
在 (0,0) 上 接近 常数 .变换 后 的 积分 更 易 可 靠 地 估计 ， 

另 一 种 方法 是 划 除 奇 点 比如 ,考虑 f ~ log{sin?z}dz, 它 有 一 个 奇 点 0 通 
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x/ 
过 增加 和 减 去 奇 点 零 处 对 数值 的 平方 ， 我 们 到/ log{ (sin? ajas 人 j 
2 


log z2dz, 第 一 项 适 于 积分 , 第 二 项 用 初等 方法 得 到 2r(log 3 一 1). 
更 多 关于 如 何 找到 合适 方法 处 理 奇 点 的 详细 讨论 参见 [120, 436, 534]. 


5.4.3 ZER 
将 一 元 求 积 法 向 多 重 积分 最 显而易见 的 推广 是 来 各 公式 这 需要 , 举例 说 ,将 
f i f(e, y)dyàr 写 为 [ioe zjdz, 其 中 g(z) = jz,a)dy g(z) 的 值 可 以 通过 


对 z 值 的 格子 点 求 人 f(z,y)dy 的 一 元 积分 近似 而 得 . 然后 可 以 完成 对 9 的 一 元 


求 积 . 在 每 个 一 元 积分 中 使 用 m 个 子 区 间 就 需要 zz 个 7 值 , 其 中 p 是 积分 的 维 数 . 
因此 , 该 方法 对 较 大 的 p 值 不 可 行 . 甚至 对 较 小 的 p 也 要 谨防 大 量 小 误差 的 累积 ， 
为 每 个 外 层 积分 都 取决 于 内 层 积分 在 一 组 点 上 的 取 值 . 另外 , 乘积 公式 仅 可 以 对 
有 简单 几何 图 形 , 比如 超 和 矩形 的 积分 区 域 直接 应 用 ， 

为 处 理 更 高 维和 一 般 的 多 元 区 域 , 我 们 可 以 在 积分 区 域 上 划 出 专门 的 网 格 , 寻 
求 能 够 解析 求 积分 的 一 维 或 更 多 维 从 而 降低 问题 的 难度 , 或 求助 于 多 元 自 适应 求 积 
法 . 多 元 方法 在 [120, 253, 436, 524] 有 更 详细 的 讨论 . 

第 6, 7 章 提 到 的 Monte Carlo 方法 可 以 用 来 有 效 地 估计 高 维 区 域 上 的 积分 . 为 
估计 基于 个 点 的 一 维 积分 , Monte Carlo 估计 通常 地 有 O(n-W?) 的 收敛 速度 , 而 
本 章 讨论 的 求 积 法 以 O(n-?) 甚至 更 快 的 速度 收敛 . 但 在 高 维 时 , 情况 恰恰 相反 . oR 
积 法 非常 难于 实施 上 且 收敛 变 慢 , 而 Monte Carlo 方法 一 般 地 保持 了 它们 易于 实施 且 
收敛 良好 的 特点 . 由 此 可 见 , Monte Carlo 方法 通常 是 高 维 积分 的 首选 . 


5.4.4 ” 自 适 应 求 积 


自 适应 求 积 的 原则 是 根据 被 积 函 数 的 局 部 表现 选择 子 区 间 的 长 度 . 比如 , 可 以 
递归 细 分 那些 积分 估计 尚 不 稳定 的 子 区 间 . 当 被 积 函 数 的 不 良 表 现 限制 在 一 小 部 
分 积分 区 域 上 时 这 是 一 种 非常 有 效 的 方法 . 另外 , 这 也 给 出 了 一 种 减少 为 多 重 积分 
所 花 工作 量 的 方法 ,因为 大 部 分 的 积分 区 域 可 由 一 个 非常 粗 的 子 区 间 网 格 充分 屠 
it. [103, 328, 534] 包括 了 多 种 此 类 方法 . 


5.4.5 “积分 软件 


本 章 关注 于 没有 解析 解 的 积分 的 求法 ， 对 我 们 大 多 数 人 而 言 , 有 一 类 积分 虽 
然 有 解析 解 但 这 类 解 非 常 复杂 难以 用 我 们 的 技术 、 耐 心 或 智慧 来 得 到 .数值 近似 
将 会 适用 于 这 样 的 积分 ,但 符号 积分 工具 也 可 用 于 求解 ， 像 Mathematica[572] 和 
Maple[335] 这 样 的 软件 包 使 得 用 户 在 一 种 类 似 其 他 许多 计算 机 语言 的 语法 下 输入 
被 积 函 数 . 这 种 软件 编译 这 些 代数 表达 式 . 通过 熟练 应 用 积分 和 操作 项 的 命令 , 用 
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户 可 以 得 到 解析 积分 的 确切 表达 式 . 这 种 软件 可 进行 代数 运算 , 且 对 难以 求解 的 不 
定 积分 这 种 软件 尤其 有 用 . 


5.1 


5.2 
5.3 


5.4 


5.5 


问 题 
对 梯形 法 则 , 将 pi(z) 表示 为 
Fle) + (e — 2) Pi 


Tigi — Ti 

将 了 在 zi 处 Taylor 展开 并 求 z = zi+1 处 的 值 . 利用 所 得 表达 式 证 明 (5.14). 

依照 问题 (5.8)~(5.11) 的 方法 , RH Simpson 法 则 中 的 Aij, j = 0,1,2. 

假设 数据 (x1, - ,zr) = (6.52, 8.32, 0.31, 2.82, 9.96, 0.14, 9.64) 是 观测 到 的 ， 基 于 极 小 

充分 的 Tu 的 一 个 N(u, 37/7) 似 然 以 及 一 个 Cauchy(5,2) 先 验 , 考虑 u 的 Bayes 估计 . 

(a) 选择 一 种 数值 积分 方法 ,证 明 比 例 常数 大 约 是 7.846 54，( 即 求 出 使 得 Ja 
验 )x( 似 然 )du = 1 H k W. ) 

(b) 使 用 (a) 中 的 值 7.846 54, 并 在 积分 范围 内 采用 Riemann 法 则 、 梯 形 法 则 和 Simpson 
法 则 确定 2 < u < 6 的 后 验 概率 ( 像 在 (5.20) 中 那样 将 两 相 邻 的 子 区 间 配 对 以 实 
Hi Simpson 法 则 ). 直到 最 慢 方 法 的 相对 收敛 在 0.000 1 之 内 时 , 计算 估计 值 . 将 结 
果 制 成 表格 . 所 得 估计 值 与 正确 答案 0.996 05 有 多 近 ? 

(c) 以 下 述 两 种 方式 求 p > 3 的 后 验 概率 . 由 于 积分 范围 是 无 限 的 ， 使 用 变换 u = 
0， 首 先 忽略 奇 点 1, 使 用 一 种 或 多 种 求 积 法 求 出 积分 值 . 其 次 , 使 用 一 种 
或 多 种 近似 法 处 理 奇 点 1， 并 求 得 积分 值 ， 比 较 所 得 结果 . 这 些 估计 值 与 正确 答案 
0.990 86 有 多 近 ? 

(d) 使 用 变换 u= 1/4, 得 到 (c) 中 积分 的 一 个 好 的 估计 . 

对 a>1 令 X~Unifll,a E Y = (a 一 1)/X. 使 用 m = 6 的 Romberg 算法 计算 

E{Y} = loga. 将 得 到 的 三 角形 表 列 出 . 评价 所 得 结果 . 

由 于 依赖 于 Legendre 多 项 式 , [-1,1] 上 w(z) = 1 的 Gauss 求 积 法 则 (参见 表 5.6) 称 

为 Gauss-Legendre 求 积 . 10 点 Gauss-Legendre 法 则 的 节点 和 权重 在 表 5.8 给 出 . 

(a) 画 出 权重 -节点 图 . 

(b) 求 出 曲线 y =o? 下 在 -1 和 1 之 间 的 面积 . 将 其 与 实际 答案 比较 , 并 评价 该 求 积 法 
的 精确 性 . 


表 5.8 范围 [一 1,1] 上 10 点 Gauss-Legendre 求 积 的 节点 和 权重 


tzi Ai 

0.148 874 338 981 631 0.295 524 224 714 753 
0.433 395 394 129 247 0.269 266 719 309 996 
0.679 409 568 299 024 0.219 086 362 515 982 
0.865 063 366 688 985 0.149 451 394 150 581 


0.973 906 528 517 172 0.066 671 344 308 688 
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5.6 假设 由 10 个 独立 同 分 布 的 观测 值得 到 Z= 47. Q u 的 似 然 对 应 于 模型 Xp ~ 

N(u,50/10), E (u 一 50)/8 的 先 验 是 自由 度 为 1 的 t 分 布 . 

(a) 说 明 5 点 Gauss Hermite 求 积 法 则 依赖 于 Hermite 多 项 式 Hs(z) = c(z5 — 10z3 + 
152). 

(b) 说 明 Hs(z) 的 归 一 化 ( 即 (Hs(z), Hs(z)) = 1) BER c = 1/V 120V2x. 注意 标准 正 
态 分 布 的 奇数 阶 和 矩 为 0, 当 r 是 偶数 时 第 r MERT way 

(c) 用 你 喜欢 的 求 根 法 , 估计 5 点 Gauss-Hermite 求 积 法 则 的 节点 . (注意 找到 f 的 一 
个 根 等 价 于 找到 |f| 的 一 个 局 部 最 小 值 . ) 画 出 Hs(z) 从 -3 到 3 的 曲线 , 并 指明 
它 的 根 . 

(d) 找 出 积分 的 权重 . 画 出 权重 -节点 图 . 你 会 意识 到 Hoe(z) 的 归 一 化 常数 是 1/V720V27. 

(e) 使 用 上 面 找到 的 5 点 Gauss-Hermite 积分 的 节点 和 权重 , 估计 u 的 后 验方 差 . (在 
取 后 验 期 望 前 记 住 考虑 后 验 中 的 归 一 化 常数 ). 
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本 章 介绍 从 某 一 目标 分 布 f 中 随机 抽取 Xi,… , 的 模拟 . 这 样 的 抽样 最 
常用 于 进行 Monte Carlo 积分 , 该 积分 是 用 从 积分 范围 上 某 分 布 中 随机 抽取 的 一 组 
点 上 的 被 积 函 数值 对 某 积 分 值 做 的 统计 估计 . 

经 由 Monte Carlo 模拟 的 积分 估计 在 多 种 背景 下 有 用 . 在 Bayes 分 析 中 , 后 验 
矩 可 以 写成 一 个 积分 的 形式 , 但 通常 不 能 解析 求 得 积分 值 . 后 验 概率 也 可 以 写成 关 
于 后 验 的 示 性 函数 的 期 望 . Bayes 决策 理论 中 风险 的 计算 也 依赖 于 积分 . 积分 也 同 
样 是 频率 似 然 分 析 的 一 个 重要 组 成 部 分 . 例如 , 联合 密度 的 边际 化 依赖 于 积分 . 例 
5.1 举例 说 明了 来 自 某 广义 线性 混合 模型 的 极 大 似 然 拟 合 的 一 个 积分 问题 . 一 些 其 
他 的 积分 问题 将 在 本 章 和 第 7 章 中 讨论 . 

除了 在 Monte Carlo 积分 中 的 应 用 , 对 从 某 一 目标 密度 f 中 随机 抽样 的 模拟 
在 很 多 其 他 情况 中 也 很 重要 . 实际 上 , 第 7 章 专 门 介绍 了 Monte Carlo 积分 的 一 种 
特殊 策略 , 叫做 马 氏 链 Monte Carlo， 自 助 法 、 随 机 搜索 算法 和 许多 其 他 的 统计 工 
具 也 都 依赖 于 随机 偏差 的 产生 . 

关于 在 本 章 中 讨论 的 主题 的 更 多 细节 可 在 [91, 137, 166, 326, 334, 357, 366, 400, 
456, 466, 468] 中 找到 . 


6.1 Monte Carlo 方法 的 介绍 


在 推断 性 的 统计 分 析 中 很 多 感 兴趣 的 量 能 够 表示 为 某 随 机 变量 的 函数 的 期 望 ， 
即 E{h(X)}. 令 了 表示 X 的 密度 , 且 u 表示 h(X) 关于 f 的 期 望 . 当 从 /中 取得 
一 个 独立 同 分 布 的 样本 Xi, Xn 时, 依据 强大 数 定律 ( 见 第 1.6 节 ), 4 n 一 co 
时 , 我 们 可 以 用 样本 均值 近似 p: 


m= DX) J h(æ)f(z)dz = p. (6.1) 
i=L 
此 外 , 4 v(a) = [h(z) — nl?, 并 假定 A(X)? 在 f 下 期 望 是 有 限 的 . 那么 fac 的 样 


本 方差 为 o?/n = E{v(X)/n}, 其 中 期 望 是 关于 f RA. 类 似 的 Monte Carlo 方法 
可 用 


n- 


var{fiac} = = DCX) = auc}? (6.2) 
i=l 
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来 估计 o?, 24 o? 存在 时 , 中 心 极限 定理 表明 对 较 大 的 n, imc 有 近似 正 态 分 布 , 于 
是 有 对 u 的 近似 置信 和 界 和 统计 推断 . 一 般 地 , 可 以 直接 把 (6.1), (6.2) 和 本 章 的 大 
多 数 方法 推广 到 感 兴趣 的 量 是 多 元 的 情形 , 因此 下 面 考虑 u 是 标量 即 可 . 

Monte Carlo 积分 慢 于 O(n-/?) 收敛 . 在 n 个 节点 下 , 第 5 章 描 述 的 求 积 方 
法 是 O(n-?) 阶 或 更 好 的 收敛 . 但 是 有 多 种 原因 表明 Monte Carlo 积分 仍 是 一 个 非 
常 强大 的 工具 . 

最 重要 的 是 , 求 积 方法 很 难 推广 到 多 维 问题 上 , 因为 一 般 的 p 维 空间 很 大 . 直 
积 法 产生 的 wz 个 积分 网 格 很 快 受 限于 维 数 祸根 (将 在 10.4.1 节 讨论 ), 从 而 会 变 得 
更 难 实现 且 收 敛 更 慢 ， Monte Carlo 积分 在 f 的 p 维 支 撑 区域 上 随机 抽取 来 自 了 
的 样本 , 但 并 不 尝试 对 该 区 域 的 任何 系统 的 探索 . 因此 , Monte Carlo 积分 的 实施 比 
求 积 法 更 少 受 限于 高 维 问题 . 然而 , 当 p 很 大 时 , 仍 需 要 一 个 非常 大 的 样本 量 以 得 
到 fimc 的 一 个 可 接受 的 标准 误 . 当 h 光滑 时 , 即使 p = 1, 求 积 法 也 表现 最 好 . 相 比 
ZF, Monte Carlo 积分 方法 不 考虑 光滑 性 . 更 多 的 比较 在 [166] 给 出 . 

Monte Carlo 积分 用 一 组 从 某 概率 分 布 中 随机 选取 的 点 取代 了 求 积 节点 的 系统 
网 格 . 因而 , 第 一 步 是 研究 如 何 产生 这 些 随机 点 . 这 个 问题 将 在 6.2 节 中 解决 . 等 式 
(6.1) 中 给 出 的 标准 估计 的 改进 方法 在 6.3 节 中 叙述 . 


6.2 模 拟 


本 节 主 要 讨论 不 服从 常见 参数 分 布 的 随机 变量 的 模拟 ， 我 们 称 想 要 的 抽样 密 
BE f 为 目标 分 布 . 当 目 标 分 布 来 自 一 个 标准 参数 族 时 , 大 量 的 软件 可 容易 地 产生 随 
机 偏差 . 在 某 种 程度 上 , 这 些 代码 都 依赖 于 标准 均匀 分 布 随机 偏差 的 产生 . 给 定 了 
计算 机 的 确定 性 本 质 , 这 些 抽取 不 是 真正 随机 的 , 但 是 一 个 好 的 发 生 器 会 产生 一 系 
列 与 独立 标准 均匀 变量 在 统计 上 不 能 区 别 开 来 的 值 . 标准 均匀 随机 偏差 的 产生 是 在 
[171, 198, 334, 455, 456, 468] 中 研究 的 一 个 典型 问题 . 

相对 于 重复 均匀 随机 数 产 生 的 理论 , 我 们 更 关注 有 好 软件 的 人 所 面临 的 实际 困 
R: 当 目 标 密度 用 软件 不 易 抽样 时 该 怎么 办 . 例如 , 几乎 所 有 的 Bayes 后 验 分 布 都 
不 是 标准 参数 族 的 成 员 . 利用 指数 族 里 的 共 斩 先 验 求 得 的 后 验 是 个 例外 . 

除 缺少 显而易见 的 7 抽样 方法 外 还 有 另外 的 困难 . 多 数 情况 下 , 特别 是 在 Bayes 
分 析 里 , 可 能 会 已 知 目标 密度 在 仅 差 一 个 乘法 比例 常数 下 已 知 . 这 种 情况 下 / 不 能 
被 抽样 , 只 能 在 差 那 个 常数 下 计算 . 幸运 的 是 , 有 一 些 模拟 方法 在 这 种 情况 下 依然 
AR 

最 后 , 对 f 估 值 是 有 可 能 的 , 但 是 计算 昂贵 . 如 果 f(z) 的 每 次 计算 都 需要 一 次 
优化 、 一 次 积分 , 或 者 其 他 费时 的 计算 , 那 我 们 会 寻找 模拟 方法 以 尽量 避免 直接 求 
f fa. 
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6.2.1 ”从 标准 参数 族 中 产生 


在 讨论 从 复杂 的 目标 分 布 中 抽样 前 , 我 们 考察 一 些 利用 均匀 随机 变量 从 常见 分 
布 中 产生 随机 变量 的 策略 . 我 们 略 去 了 这 些 方法 的 原理 , 它们 在 上 面 引用 的 文献 中 
给 出 . 表 6.1 归纳 了 多 种 方法 . 虽然 列 出 的 方法 不 一 定 是 最 新 的 , 但 它们 说 明了 复 
杂 发 生 器 利用 的 一 些 基本 原理 . 


表 6.1 ”从 常见 分 布 中 产生 随机 变量 X 的 一 些 方法 


分 布 方法 
均匀 见 [171,198,334,455,456,468]. 对 X ~ Unif(a, b); 取 U ~ Unif(0, 1); 
然后 令 X =a+4(b-a)U 
N(u, 0?) 和 取 U1, U2 ~ ii.d. Unif(0, 1); 则 Xi = p + oV—2log Uj cos{27U2} 和 


lognormal(l 0?) X2 = p+ o/—2log Uj sin{2nU2} BARA N(u, 07). 如 果 X ~ N(y,0), 
则 exp{X} ~ lognormal (j:, a?) 


多 元 N(u, £) 分 坐标 产生 标准 多 元 正 态 向量 Y: W X = EY +p 
Cauchy (a, 8) RU ~ Unif(0, 1); W X = a + S tan{x(U — 1/2)} 
指数 (和 ) IR U ~ Unif(0,1); 则 X= 一 (logU)/X 
Poisson(A) 取 Ui, U2,- +- ~ iid. Unif(0, 1); WJ X = j — 1, 其 中 了 是 满足 Å U; <e-* 
i=l 
的 最 小 下 标 
Gamma(r, A) 见 例 6.1, 文献 ,或 对 整数 r, X= — LF log Ui, 其 中 Un,- ,Or w iid. 
5 
Unif(0, 1) 
卡 方 (df =k) R Ya Yew iid. N(O,1), WX = È Y2: BUR X ~ Gamma(k/2, 1/2) 
i= 
学 生 tdf = k) 和 独立 地 取 Y ~ N(0, 1), Z ~ x,W ~ xh, WX = Y/Y Zk 有 + 分 布 且 
Fk,m 分 布 F = (Z/k)/(W/m) 有 下 分 布 
Beta(a, b) 独立 地 取 Y ~ Gamma(a, 1) 和 2Z~Gamma(b,1); W X = Y/(Y + Z) 
Bernoulli(p) 和 Wt U ~ Unif(0, 1); 则 X = lu<p} Æ Bernoulli(p). n 个 独立 Bernoulli(p) 
二 项 (n, p) 抽样 的 和 是 二 项 (n, p) 
负 二 项 (7,p) BR Ui,- ,Ur wiid. Unif(0,1): W X = llogU)/log{1 — p}], 
A 


其 中 |.] 表示 最 大 整数 

多 项 (1, (p1,… ,pk)) ”将 [0,1] HR k 段 使 得 第 i BLAKE pi. W U ~ Unif(0,1); & X SFU 
所 落 入 的 段 的 标号 . 对 多 项 (n, (p1, ,pk)) 计数 这 些 抽样 

Dirichlet(ay,--- ,ak) 取 独立 的 Yi ~ Gamma(a;, 1), i =1,--- ,k; 则 XT = 


6.2.2 ” 逆 累 积分 布 函数 


表 6.1 中 Cauchy 和 指数 分 布 的 方法 是 以 着 累 积分 布 函数 或 概率 积分 变换 方 
法 为 依据 的 对 任意 的 连续 分 布 函数 F, 如果 U ~ Unif(0,1), W X = F-1(U) = 
inf{z : F(z) > U} 的 累积 分 布 函数 等 于 F. 

如 果 F-! 对 目标 密度 是 可 用 的 , 那么 该 方法 可 能 是 最 简单 的 选择 了 . 如 果 FF-1 
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不 可 用 , 但 FP 或 者 可 用 或 者 容易 近似 , 那么 可 用 线性 插值 得 到 一 种 粗糙 的 方法 . 用 
++ ,zm 的 网 格 横 跨 f 的 支撑 区 域 , 在 每 个 格子 点 计算 或 近似 u = F(zi). 然后 ， 

mi U ~ Unif(0,1), 并 在 两 个 最 近 的 格子 点 间 依 照 

A US (6.3) 

Uj— Ui Uj — Wi 

作 线 性 插值 , 其 中 w <U < uj. 该 方法 并 不 具 吸 引力 , 因为 它 需 要 对 F 的 完全 近 

似 , 而 不 管 需要 的 样本 量 大 小 , 并 且 它 不 能 推广 到 多 维 且 比 其 他 方法 效率 低 . 

6.2.3 ”拒绝 抽样 


WR f(x) 在 至 少 差 一 个 比例 常数 下 是 可 计算 的 , 那么 我 们 可 以 用 拒绝 抽样 从 
目标 分 布 准确 得 到 一 个 随机 抽样 . 这 种 方法 依赖 于 一 个 较 简单 分 布 的 抽样 备 选 点 ， 
然后 通过 随机 拒绝 某 些 备 选 点 修正 抽样 概率 . 

令 9 表示 另 一 个 密度 , 由 此 我 们 知道 如 何 抽样 且 因此 更 容易 计算 g(x). 令 el) 
表示 一 条 包 络 , 对 所 有 满足 f(z) > 0 的 z 及 给 定 的 常数 a < 1, 有 性 质 e(x) 
g(z)/a > f(a). 拒绝 抽样 步骤 如 下 : 

(1) 取样 本 Y ~ g; 

(2) 取样 本 U ~ Unif(0,1); 

(3) 如 果 U > F(Y)/e(Y), 就 拒绝 Y. 这 种 情况 下 不 记录 Y 值 作为 目标 随机 样 
本 的 一 个 元 素 , 而 是 返回 步骤 1; 

(4) 否则 , 保留 Y 值 . 令 X=Y, 认为 X 为 目标 随机 样本 的 一 个 元 素 , 然后 返 
EPR 1, 直到 达到 所 需 的 样本 量 . 

用 这 个 算法 保留 的 样本 构成 了 来 自 目标 密度 f 的 独立 同 分 布 的 样本 ; 这 里 没有 引 
入 近似 . 为 说 明 此 点 , 注意 某 保留 样本 不 大 于 值 y 的 概率 为 


PIX <y=P [<< i] 


-P|y<yAu< £2) Je [v<] 


af pe: i wale S AE T 
=f f(z)dz, (6.5) 


此 即 为 所 需 的 概率 . 因而 , 抽样 分 布 是 精确 的 , a 可 以 理解 为 可 接受 的 备 选 点 的 期 
望 比例 . 因此 a 是 算法 效率 的 一 个 度量 . 我 们 可 以 继续 拒绝 抽样 的 过 程 直 到 它 满 
足 所 需 样本 点 的 个 数 , 但 是 这 需要 一 个 依赖 于 拒绝 比例 的 随机 的 迭代 总 数 . 

回顾 步骤 3 中 决定 一 个 备 选 抽样 了 = y 命运 的 拒绝 规则 . 取 抽 样 UV ~ Unif(0, 1) 
并 遵循 这 一 规则 就 等 价 于 取 抽 样 Uly ~ Unif(0,e(y)), WR U < f(y) 就 保留 y 


X= 


122 第 6 章 模拟 与 Monte Carlo 积分 


值 . 考虑 图 6.1. 假设 y 值 落 在 垂直 线 显 示 的 点 上 . 那么 想象 在 垂直 线 上 均匀 抽样 
UY = y. 拒绝 规则 以 f(y) 之 上 的 线 长 相对 于 总 线 长 比例 的 概率 排除 了 这 个 了 . 
此 , 拒绝 抽样 可 以 视 为 在 曲线 e 下 的 二 维 区 域 均 匀 抽 样 , 然后 去 除 任何 落 在 f 之 上 
e 之 下 的 样本 . 既然 从 f 抽样 等 价 于 从 f(z) 曲线 下 的 二 维 区 域 均匀 抽样 , 然后 忽 
略 纵 坐 标 , 那么 拒绝 抽样 提供 的 样本 确切 地 来 自 f. 


e(y) 


o+ 


图 6.1 采用 拒绝 抽样 包 络 e 对 目标 分 布 f 的 拒绝 抽样 的 图 示 


图 6.1 中 了 之 上 e 之 下 的 阴影 区 域 显示 的 是 损耗 . 当 e(y) 远大 于 f(y) 时 , 抽 
FE Y = y 极 有 可 能 被 拒绝 . 所 以 包 络 处 处 仅 超过 f 极 小 的 幅度 可 以 产生 较 少 的 损 
耗 样本 点 , 且 对 应 于 接近 1 的 a 值 . 

假设 目标 分 布 f 在 仅 差 一 个 比例 常数 c 下 是 已 知 的 . 也 就 是 说 , 假设 我 们 仅 能 
容易 地 计算 q(x) = f(z)/c, 其 中 e 是 未 知 的 . 这 样 的 密度 出 现在 比如 Bayes 推断 
中 , 这 时 f 是 一 个 后 验 分 布 , 已 知 它 等 于 先 验 与 被 某 归 一 化 常数 调整 过 的 似 然 的 乘 
积 . 幸运 的 是 , 在 这 种 情形 下 可 以 应 用 拒绝 抽样 . 我 们 找到 一 条 包 络 e, 满足 对 所 有 
{tt q(x) > 0 WY x A el) > qla). 4U > a(y)/e(y) 时 , 抽样 Y = y 被 拒绝 . 抽样 
比例 仍然 正确 , 因为 当 f g 取代 时 , 未 知 常数 c 在 (6.4) 的 分 子 和 分 母 中 抵消 了 . 
保留 抽样 的 比例 是 a/c. 

假如 可 以 构造 一 个 合适 的 多 元 包 络 , 那么 多 元 目标 分 布 也 能 用 拒绝 抽样 方法 抽 
样 . 拒绝 抽样 算法 在 概念 上 是 不 变 的 . 

要 构造 一 条 包 络 来 限制 目标 分 布 , 我 们 就 必须 足够 了 解 目标 分 布 以 便 界定 它 . 
这 可 能 需要 对 f 或 g 进行 优化 或 者 巧妙 近似 , 以 保证 e 能 够 构造 得 处 处 超过 目标 . 
注意 到 当 目 标 是 连续 且 对 数目 时 , 它 是 单 峰 的 . 如 果 我 们 选择 峰值 对 边 上 的 两 个 点 
21 和 zo, 那么 将 在 z1 和 co 点 与 log f 或 log 相 切 的 线段 相连 接 得 到 的 函数 产生 
一 条 具有 指数 尾 的 分 段 指数 包 络 . 得 到 这 条 包 络 不 需要 知道 目标 密度 的 最 大 值 ; 它 
仅 需 要 检验 rı 和 za 是 否 位 于 它 的 对 边 上 . 6.2.3 节 第 2 部 分 描述 的 自 适应 拒绝 抽 
样 方法 利用 这 个 想法 生成 了 很 好 的 包 络 . 

综 上 所 述 , 好 的 拒绝 抽样 包 络 有 三 条 性 质 : (1) 容易 构造 或 确定 以 致 处 处 超过 
目标 密度 ; (2) 容易 抽样 ; (3) 产生 很 少 的 拒绝 样本 . 
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例 6.1 (Gamma 偏差 ) 考虑 当 r > 1 时 , 生成 一 个 Gamma(r, 1) 随机 变量 的 问 
题 . 当 Y 是 根据 密度 


f(y) = ey)" t (y) exp{-tH(y)} P(r) (6.6) 


生成 时 , 其 中 tiy) = a(l + by)?, -1/b < y < œ, a = r — 1/3 H b = 1/V9a, 则 
X =t(Y) 会 有 一 个 Gamma(r, 1) 分 布 [376]. Marsaglia 和 Tsang 描述 了 在 拒绝 抽 
样 框架 下 如 何 利用 这 一 事实 [377]. 采用 (6.6) 式 作为 目标 分 布 , 这 主要 因为 变换 来 
自 /的 样本 可 给 出 所 需 的 Gamma 样本 . 

简化 了 并 且 忽略 归 一 化 常数 , 我 们 希望 从 与 a(y) = exp{alog{t(y)/a}—t(y)+a} 
成 比例 的 密度 生成 样本 . 方便 的 是 , 9 在 函数 ely) = exp{—y?/2} 下 拟 合 得 比较 合 
适 , 这 是 一 个 未 调整 的 标准 正 态 密 度 . 因此 , 拒绝 抽样 等 于 抽取 一 个 标准 正 态 随 机 
变量 Z 和 一 个 标准 均匀 随机 变量 U, 然后 如 果 


U < q(Z)/e(Z) = exp{Z?/2 + alog{t(Z)/a} — t(Z) + a} (6.7) 


H (Z) > 0, WR X = t(2Z)， 否 则 , 拒绝 该 样本 且 步 骤 重 新 开始 . 一 个 接受 
的 样本 具有 密度 Gamma(r,1). 来 自 Gamma(r, 1) 的 样本 可 重新 调整 以 得 到 来 自 
Gamma(r, 和) 的 样本 . 

TE r= 4 时 的 一 个 模拟 中 , 超过 99% 的 备 选 样本 被 接受 , H ely) 和 aly) 对 y 
的 图 显示 两 条 曲线 几乎 重合 . 即使 在 最 差 的 情况 (> = 1), 包 络 也 是 极 好 的 , 只 有 少 
于 5% 的 损耗 . 口 
例 6.2 (抽取 Bayes 后 验 分 布 ) 假设 10 个 独立 观测 (8, 3, 4, 3, 1, 7, 2, 6, 2, 7) 来 
自 模型 Xi;| 和 ~ Poisson( 和 ). 假定 和 服从 一 个 对 数 正 态 先 验 分 布 : log 和 ~ N(4,0.52). 
记 似 然 为 L(A|z), 先 验 为 F(A). 我 们 知道 = z= 4.3 使 C(Alz) 关于 和 最 大 ; 因此 ， 
未 归 一 化 后 验 Ale) = f(A)L(AIz) 被 e(A) = f(A)Z(4.3lz) 上 覆盖 . 图 6.2 ERT q 
和 e 注意 先 验 与 e 是 成 比例 的 . 因而 , 拒绝 抽样 从 抽取 来 自 对 数 正 态 先 验 的 X 和 
来 自 标 准 均匀 分 布 的 U; 开始 . 然后 如 果 Ui < g(Xilz)/e(Ni) = Li|z)/L(4.3]z), W 


未 归 一 化 密度 x10" 


0 10 20 
入 


6.2 i 6.2 中 拒绝 抽样 的 未 归 一 化 目标 分 布 (点 线 ) 和 包 络 (SEB) 
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保留 Xi. 否则 , 拒绝 Xi 且 步骤 重新 开始 . 任何 保留 的 Xi 都 是 来 自 后 验 的 一 个 抽样 . 
虽然 不 很 有 效 , RAK 30% 的 备 选 抽样 被 保留 , 但 该 方法 简易 且 准 确 . 口 


1. 压 挤 拒绝 抽样 


一 般 的 拒绝 抽样 需要 对 每 个 备 选 抽样 Y 有 一 个 7 值 . 在 f 求 值 昂贵 但 拒绝 抽 
样 却 吸引 人 的 情形 , 压 挤 拒绝 抽样 可 以 改进 模拟 速度 [334, 374, 375). 

在 某 些 情 形 , 该 方法 利用 一 个 非 负 的 压 挤 函数 s 取代 f 求 值 . 要 使 s 是 一 个 合 
适 的 压 挤 函数 , 则 s(z) 一 定 不 能 在 f 的 支撑 上 的 任 一 处 超过 f(z). 像 对 一 般 的 拒 
绝 抽 样 一 样 , 也 要 用 到 包 络 e, 且 在 f 的 支撑 上 有 e(z) = g(z)/a > f(a). 

算法 如 下 进行 . 

(1) 取样 本 Y ~g. 

(2) 取样 本 U ~ Unif(0, 1). 

(3) MR U < s(Y)/e(Y), 保留 了 值 . SX=¥, #8 X 为 目标 随机 样本 之 一 ， 
然后 转 到 步骤 6. 

(4) 否则 , 确定 是 否 有 U < f(Y)/e(Y). 如 果 不 等 式 成 立 , 保留 了 值 , 令 X=Y. 
考虑 X 为 目标 随机 样本 之 一 . 然后 转 到 步骤 6. 

(5) WR Y 仍 未 被 保留 , 拒绝 其 成 为 目标 随机 样本 之 一 . 

(6) BADR 1, 直到 达到 所 需 的 样本 量 . 
注意 到 当 Y = y 时 , 备 选 抽样 以 总 概率 f(y)/e(y) 被 保留, 而 以 概率 [e(y) 一 f(y)]/e(y) 
被 拒绝 . 这 和 简单 拒绝 抽样 的 概率 一 致 . 步骤 3 基于 s 值 而 不 是 f 值 决定 是 否 保 
BY. 当 5 处 处 紧 靠 在 f 的 下 面 时 , 我 们 得 到 f 求 值 个 数 的 最 大 减少 量 . 

图 6.3 演示 了 该 过 程 . 当 抽取 一 个 备 选 Y = y 时 , 算法 的 进行 在 某 种 意义 上 等 
价 于 抽取 一 个 Unif(0, e(y)) 的 随机 变量 . 如 果 该 均匀 变量 落 在 s(y) 之 下 , 则 该 备 选 
立即 被 保留 . 浅 色 阴影 表示 备 选 立即 被 保留 的 区 域 . 如 果 备 选 不 能 立即 被 保留 , 那 
么 必须 采用 第 二 次 检验 , 以 确定 均匀 变量 是 否 落 在 f(y) 之 下 . 最 后 , 深 色 阴影 表示 


e(y) 


y 
图 6.3 ”采用 包 络 e MERER s 对 某 目标 分 布 了 的 压 挤 拒绝 抽样 图 示 .“ 首 先 保留 ”和 “ 随 
后 保留 ” 分别 对 应 算法 的 步骤 3 AR 4 
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备 选 最 终 被 拒绝 的 区 域 . 


像 拒绝 抽样 一 样 ， 备 选 抽样 被 保留 的 比例 是 a. 避免 求 f AER LE 
s(a)da/ f e)an. 


当 目 标 在 仅 差 一 个 比例 常数 下 已 知 时 , 也 能 应 用 压 挤 拒绝 抽样 . 在 这 种 情形 下 、 
包 络 和 压 挤 函数 把 未 归 一 化 目标 夹 在 中 间 . 这 种 方法 仍 是 准确 的 , 且 有 同样 的 效率 
回报 . 

可 直接 得 到 对 抽取 多 元 目标 的 推广 . 


2， 自 适应 拒绝 抽样 


显然 拒绝 抽样 策略 中 最 富有 挑战 性 的 方面 是 构造 合适 的 包 络 . 对 压 挤 拒绝 抽 
样 , Gilks 和 Wild 提出 了 一 种 针对 支撑 连通 区 域 上 连续 、 可 导 、 对 数 凹 密度 的 自动 
包 络 生成 方法 [214]. 

这 种 方法 称 为 自 适 应 拒绝 抽样 , 因为 包 络 和 压 挤 函 数 在 生成 样本 的 同时 被 反复 
精炼 . 随 着 迭代 次 数 的 增加 , 损耗 量 和 f 必须 被 估 值 的 频数 都 会 同时 减少 . 

令 I(x) = log f(x), 并 假设 在 某 (可 能 无 穷 的 ) 实 线 区 间 上 f(x) > 0. 令 f 是 对 
RAEN, 满足 对 f 支撑 区 域内 的 任意 三 点 a <5<c 有 i(a) Ub) +l) <0. E f 
是 连续 可 导 的 额外 假设 下 , 注意 到 Va) 存在 且 随 着 z 的 增加 单调 递减 , 但 可 能 有 
间断 点 . 

算法 以 在 大 个 点 zi < z2 < … < zk 处 计算 A 开始. 令 Ty = {z ,zk}. 
如 果 f 的 支撑 延伸 到 -co, 选择 ri 使 得 !(zi) > 0. 同样 地 , 如 果 F 的 支撑 延 仲 到 
oo, 选择 2, IE l (2k) < 0 

定义 Ty 上 的 拒绝 包 络 为 ! 在 Te 内 各 点 处 的 切线 组 成 的 分 段 线性 上 覆盖 的 指 
数 . 如 果 记 1 的 上 覆盖 为 e, 那么 拒绝 包 络 是 ek(z) = exp{ex(z)}. 为 理解 上 覆盖 
的 概念 , 请 看 图 6.4. 该 图 给 出 了 实 线 ! 并 演示 了 = 5 的 情况 . 虚线 给 出 的 是 分 段 
上 覆盖 e*. 它 在 每 个 x; 处 与 1 相 切 , | 的 伺 度 保证 了 ex 在 其 他 各 点 处 处 在 ! 之 上 . 
可 以 证 明 在 rz; 和 zi+i 处 的 切线 在 


> (igi) — (Ti) — Tiit (Tit1) + cil’ (zi) 
= 


O(a) Pem) Sa 
处 相交 , 其 中 = 1,… ,一 1. 因此 ， 
iD) =e) +(e 2) @), se lat), 63) 


且 i= 1,… ,k, zo 和 zx 分 别 定义 为 等 于 了 支撑 区 域 的 (可 能 无 穷 的 ) 下 界 和 上 界 . 
图 6.5 给 出 了 取 罕 到 原始 刻度 上 的 包 络 er- 
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ia): 中 (如 


ar g. S T. EA 


图 6.4 4k = 5 时 在 自 适应 拒绝 抽样 中 采用 的 U(x) = log f(x) 的 分 段 线性 外 、 内 覆盖 


z; Tz Ty rA T 


图 6.5” 自 适应 拒绝 抽样 的 包 络 和 压 挤 函 数 . 目标 密度 是 平滑 的 , 接近 钟 形 曲线 . 文中 讨论 的 
第 一 种 方法 利用 ! 的 导数 产生 了 显示 为 浅 色 阴影 区 域 上 边界 的 包 络 ， 它 对 应 于 方程 
(6.9) 和 图 6.4 在 后 文中 给 出 了 无 导数 的 方法 . 包 络 是 深 色 阴 影 区 域 的 上 边界 , 它 对 应 
于 方程 (6.11) 和 图 6.6. 两 种 方法 的 压 挤 函 数 都 是 虚 曲 线 


定义 Tk 上 的 压 挤 函数 为 Te 内 相 邻 点 间 的 弦 组 成 的 ! 的 分 段 线性 下 覆盖 的 指 
数 . 这 个 下 覆盖 由 
(Zit — T(zi) + (TZ — Zi)l(zit1) 


(7) = » ZE [zi Ti+], 6.10 
8} (z) ear ZE [zi, Ti+1] ( ) 


且 i = 1 ,大 一 1 给 出 . 当 z < zl 或 者 z > zk 时 , > si(z) = -co. 这 样 压 挤 函 
数 为 se(z) = exp{fsi(z)}. 图 6.4 给 出 了 一 个 天 = 5 时 的 分 段 线性 下 歼 盖 sx(z). 
6.5 给 出 了 原始 刻度 上 的 压 挤 函数 s- 

6.4 和 图 6.5 显示 了 该 方法 的 几 个 重要 特征 . 拒绝 包 络 和 压 挤 函数 都 是 分 段 
指数 函数 . 包 络 具 有 在 f 的 尾部 之 上 的 指数 尾部 . 压 挤 函数 具有 有 界 支 撑 . 

自 适应 拒绝 抽样 通过 选择 一 个 适中 的 上 和 相应 合适 的 网 格 T 来 初始 化 . 算法 
的 第 一 次 迭代 像 对 压 挤 拒绝 抽样 一 样 进行 , 分 别 用 ek 和 sk 作为 包 络 和 压 挤 函 数 . 
当 一 个 备 选 抽样 被 接受 时 , 如 果 满足 压 挤 准则 , 那么 不 用 计算 ! 和 4' 即 可 被 接受 . 
然而 , 它 也 可 能 在 第 二 阶段 被 接受 , 这 里 就 需要 在 备 选 抽样 处 计算 A 当 一 个 
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备 选 抽样 在 该 第 二 阶段 被 接受 时 , 接受 的 点 被 加 到 T 中 , 得 到 Te, 并 计算 更 新 
函数 erp 和 sepi 迭代 继续 . 当 一 个 备 选 抽样 被 拒绝 时 , 则 不 用 更 新 Ti, ee 和 sk. 
此 外 , 我 们 现在 看 出 如 果 一 个 新 的 点 与 T 中 任 一 存在 的 元 素 重合 , 则 不 必 更 新 T， 
ep 和 sp. 

备 选 抽样 是 来 自 通过 按 比例 缩放 分 段 指 数 包 络 ej 以 使 其 积分 为 1 而 得 到 的 
密度 . 因为 每 一 个 接受 的 抽样 都 是 用 一 个 拒绝 抽样 方法 得 到 的 , 因而 它们 是 来 自 f 
的 独立 同 分 布 的 样本 . 如 果 f 在 仅 差 一 个 乘法 常数 下 已 知 , 那么 自 适应 拒绝 抽样 方 
法 也 能 使 用 , 因为 比例 常数 仅仅 平移 1, ex 和 sx. 

Gilks 与 其 合作 者 提出 了 一 种 类 似 的 方法 , 它 不 需要 计算 1'[208, 210]. 我 们 保 
留 f 是 具有 连通 支撑 区 域 的 对 数目 的 假设 , 并 保留 上 面 基于 切线 方法 的 基本 记号 
和 设置 . 

对 点 集 Te, 定义 Li(-) 为 连接 (zi,l1(zi)) 和 (zig, Uti) 的 直线 函数 ， 其 中 
1 = 1 ,大 一 1. 定义 


Li(z), [7 (6.11) 


min{Li-1(7), Lit1(7)}, £E [zi, 41], 
ek(z) = 
Ly-1(2), T> Tk, 


以 及 约定 Lo(z) = Lk(z) = 00. 那么 ex 是 l MARAE LB, 因为 1 IO MBE ARTE 
Li(a) 在 (wi, vig) 上 位 于 Ue) 之 下 , 当 z < zi 或 z > zi+l 时 位 于 !(z) 之 上 . 于 是 
拒绝 抽样 的 包 络 是 ek(z) = exp{ex(7z)}. 
压 挤 函 数 仍 像 在 (6.10) 中 的 那样 . 无 导数 自 适 应 拒绝 抽样 算法 的 迭代 和 前 面 
的 方法 一 样 类 似 进 行 , 每 当 有 新 点 保留 时 , 更 新 Te, 包 络 和 压 挤 函数 ， 

图 6.6 演示 了 对 图 6.4 中 给 出 的 同一 目标 采用 的 无 导数 自 适应 拒绝 抽样 算法 . 
包 络 不 如 使 用 V 时 有 效 . 图 6.5 给 出 的 是 原始 刻度 上 的 包 络 . 损失 效率 也 可 在 这 个 
刻度 上 看 出 . 


ty n h Ts Ey 


图 6.6 4k=5 时 在 无 导数 自 适应 拒绝 抽样 中 采用 的 Uc) = log f(x) 的 分 段 线性 外 覆盖 与 
内 覆盖 
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不 考虑 用 来 构造 ek 的 方法 , 注意 到 在 f 的 峰值 附近 f(z) 取 最 大 值 的 区 域 , 我 
们 更 愿意 T 的 网 格 点 是 最 密集 的 . 幸运 的 是 , 这 将 自动 发 生 , 因为 这 样 的 点 在 随后 
的 迭代 中 最 可 能 被 保留 且 被 包括 进 Te 的 更 新 中 . 远 在 f 尾部 的 网 格 点 用 处 不 大 ， 
比如 zs. 

针对 基于 切线 方法 的 软件 在 [209] 中 可 以 找到 . 无 导数 方法 因 其 在 WinBUGS 
软件 中 的 使 用 而 普及 , 该 软件 实施 了 马 氏 链 Monte Carlo 算法 以 推动 Bayes 分 析 
[211, 213, 515]. 自 适应 拒绝 抽样 也 可 扩展 到 不 是 对 数目 的 密度 上 , 但 那 时 必须 用 像 
第 7 章 中 那样 的 马 氏 链 Monte Carlo 方法 来 进一步 修正 抽样 概率 . 详 见 [210]. 
6.2.4 ”采样 重要 性 重 抽样 算法 


采样 重要 性 重 抽样 (SIR) 算法 模拟 了 近似 来 自 菜 目标 分 布 的 实现 ，SIR 是 基 
于 重要 性 抽样 的 概念 , 具体 细节 将 在 6.3.1 节 中 讨论 . 简要 地 说 , 重要 性 抽样 就 是 通 
过 从 一 个 重要 性 抽样 函数 g 中 抽取 一 个 样本 来 进行 . 非 正式 地 讲 , 我 们 将 称 9 为 包 
络 . 样本 中 的 每 个 点 被 加 权 以 修正 抽样 概率 以 便 加 权 抽样 可 与 目标 密度 / 关联 起 
来. 例如 , 加 权 抽 样 可 以 用 来 估计 /下 的 期 望 
本 章 前 面部 分 已 经 画 出 了 一 些 单 变量 的 目标 密度 和 包 络 以 说 明基 本 的 概念 ,我 
们 现在 转 到 多 变量 的 记号 以 强调 方法 的 完全 一 般 性 . 这 样 , X = (X1,… Xp) 表示 
密度 f(z) 的 一 个 随机 变量 , g(z) 表示 对 应 于 f 的 一 个 多 变量 包 络 的 密度 . 
对 目标 密度 S, 用 来 修正 抽样 概率 的 权重 称 作 标准 化 重要 性 权重 , 定义 如 下 
w(x, = Lee) 
È sed/ate) 


其 中 z1,… ,zm 是 来 自 包 络 9 的 独立 同 分 布 的 样本 . 虽然 对 一 般 重要 性 抽样 这 不 
是 必须 的 , 但 对 像 在 (6.12) 中 一 样 来 标准 化 权重 使 其 和 为 1 是 有 用 的 . 当 对 某 未 知 
的 比例 常数 c 有 f = cq 时 , 未 知 常数 c 在 (6.12) 的 分 子 和 分 母 中 抵消 了 . 

我 们 可 以 把 重要 性 抽样 看 成 是 用 在 每 个 观测 点 z; 有 概率 wa) 的 离散 分 布 近 
似 f, 其 中 i = 1 ,m. Rubin 提出 从 这 种 分 布 中 抽样 以 提供 7 的 一 个 近似 样本 
(470, 471]. 因此 , SIR 算法 如 下 进行 : 

(1) 从 g 取 独 立 同 分 布 的 备 选 样本 了 Ymi 

(2) 计算 标准 化 重要 性 权重 w(¥1),--- ,w(Ym); 

(3) 以 概率 w(Y1),… ,w(Ym) 从 Yi1,… ,Ym 中 有 放 回 地 重新 抽取 样本 
Xi, wee Xn. 

当 m oo 时 ,用 SIR 算法 抽取 的 随机 变量 X 有 收敛 到 f 的 分 布 . 为 说 明 这 
一 点 , 定义 w" (y) = f(y)/g(y), 令 了， ,Ym ~iid. g, 并 考虑 某 集 合 A 那么 


(6.12) 


PIX eAY1 ,Ym => leayw (Y) / Z wY. (6.13) 
i=l i=l 
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由 强大 数 定律 得 出 , 4 m 一 co 时 
ZŁ lyYieA}w (Yi > E{ liy eaw" (Yi)} = [e vwa. (6.14) 
进一步 , 4 m — oo 时 
PA > Efw(Y)} =1. (6.15) 
因此 , 4 m 一 oo 时 
PIX E AY i Yml > | www = f fiv. (6.16) 
最 后 , 我 们 注意 到 依据 Lesbesgue 控制 收敛 定理 [43, 504] 
PIX € =BCEKeA 一 人 ynay (6.17) 


当 目 标 密 度 和 包 络 在 只 差 一 个 常数 下 已 知 时 , 证 明 也 是 类 似 的 . 

虽然 SIR 和 拒绝 抽样 都 依赖 目标 密度 与 包 络 的 比例 , 但 它们 在 某 种 重要 程度 
上 是 不 同 的 . 在 生成 样本 的 分 布 恰 是 f 的 意义 下 , 拒绝 抽样 是 完美 的 , 但 是 它 需 要 
一 个 随机 个 数 的 抽样 以 得 到 大 小 为 n 的 一 个 样本 . 相 比 之 下 , SIR 算法 利用 预先 确 
定 的 抽样 个 数 来 生成 一 个 大 小 为 n 的 样本 , 但 它 允 许 在 已 抽样 点 的 分 布 上 对 f 有 
一 个 随机 的 近似 程度 . 

当 使 用 SIR 时 , 应 重点 考虑 初始 样本 和 再 抽样 的 相对 大 小 . 这 些 样本 大 小 分 别 
为 m 和 n. 原则 上 , 样本 依 分 布 收敛 需要 n/m 一 0. 在 基于 SIR 的 Monte Carlo 估 
计 渐 近 分 析 的 上 下 文中 , 4 n 一 co 时 , 此 条 件 意味 着 m — oo 的 速度 比 n 一 oo 更 
快 . 对 固定 的 n, 当 m 一 oo 时 会 出 现 样本 依 分 布 收 敛 , 因而 实际 中 我 们 开始 SIR 
时 需要 最 大 可 能 的 m. 然而 , 我 们 也 面临 着 选择 尽 可 能 大 的 n 以 提高 推断 精度 这 一 
竞争 性 的 需求 . n/m 的 最 大 容许 率 取决 于 包 络 的 质量 . 我 们 有 时 发 现 n/m < 1/10 
是 可 以 的 , 只 要 生成 的 重 抽样 不 包括 任 一 初始 抽样 的 过 多 重复 即 可 . 

SIR 算法 对 9 的 选择 是 敏感 的 . 首先 , 如 果 来 自 9 的 重 置 权重 的 样本 是 用 来 近 
似 来 自 f 的 样本 , 那么 9 的 支撑 一 定 要 包括 f 的 全 部 支撑 . 此 外 , 9 应 该 有 比 f 更 
重 的 尾部 , 或 者 更 一 般 地 , 应 该 选择 9 以 保证 f(z)/g(z) 不 要 增长 过 大 . WE g(x) 
处 处 几乎 为 0, 而 f(x) 为 正 , 那么 来 自 这 个 区 域 的 样本 的 出 现 会 极为 罕见 , 但 是 一 
BWR, 它 将 获得 极 大 的 权重 . 

当 这 个 问题 出 现时 , SIR 算法 呈现 出 的 征兆 是 : 一 个 或 几 个 标准 化 重要 性 权重 
远 远大 于 其 他 权重 , 而 二 次 抽样 几乎 都 是 一 个 或 几 个 初始 样本 的 重复 值 . 当 问 题 不 
是 特别 严重 时 , 建议 使 用 无 放 回 的 二 次 再 抽样 [193]. 它 渐进 等 价 于 有 放 回 抽样 , 但 
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具有 防止 过 多 重复 的 现实 中 的 优点 . 不 足 之 处 就 是 在 最 后 抽样 中 引入 了 一 些 额外 
的 分 布 近似 . 当 发 现 权重 的 分 布 过 度 偏 斜 时 , 转换 到 一 个 不 同 的 包 络 或 一 种 完全 不 
同 的 抽样 方法 可 能 是 明智 的 . 

因为 SIR 生成 了 近似 独立 同 分 布 的 来 自 f 的 样本 Xu … Xn, 我 们 可 以 继续 
进行 Monte Carlo 积分 , 例如 像 在 (6.1) 中 一 样 用 Psm = = A(Xi)/n 来 估计 A(X) 


的 期 望 . 然而 , 在 6.3 节 中 我 们 将 介绍 更 好 的 方法 ， 以 使 用 初始 加 权重 要 性 抽样 和 
其 他 有 效 的 方法 来 改进 积分 的 Monte Carlo fitr. 

例 6.3 ( 斜 线 分 布 ) WR Y = X/U, 其 中 和 ~ N(0,1) Ñ U ~ Unif(0,1) 独立 , W 
随机 变量 Y 服从 斜 线 分 布 . 下 面 考虑 利用 斜 线 分 布 作为 一 条 SIR 包 络 来 生成 标准 
正 态 变 量 , 以 及 反 过 来 利用 正 态 分 布 作为 一 条 SIR 包 络 来 生成 斜 线 变量 , 因为 容易 
利用 标准 方法 来 模拟 两 个 密度 , 且 在 哪 种 情形 中 SIR 都 不 是 必须 的 , 但 考察 这 些 结 
果 是 有 启发 性 的 . 

斜 线 密度 函数 是 


1 一 zula y?/2} 


f= |” 


Qin" d 


该 密度 有 很 重 的 尾部 . 因此 , 它 是 一 个 很 好 的 重要 性 抽样 函数 , 可 以 利用 SIR 生成 
来 自 标准 正 态 分 布 的 抽样 . 图 6.7 的 左 半 部 分 显示 了 m = 100 000 Al n = 5 000 时 
的 结果 . 并 又 加 了 真实 的 正 态 密度 加 以 比较 . 


HAN k d i 


0.1 


FRESHIE. 
斜 线 密度 


图 6.7 左 半 部 分 给 出 的 是 利用 SIR 和 和 斜 线 分 布 包 络 得 到 的 标准 正 态 密度 近似 抽样 的 直方 图 . 
右 半 部 分 给 出 的 是 利用 SR 和 正 态 分布 包 络 得 到 的 斜 线 密度 近似 抽样 的 直方 图 ， 实 
线 表示 的 是 目标 密度 


另 一 方面 , 当 生成 来 自 斜 线 分 布 的 抽样 时 , 正 态 密度 不 是 为 SIR 使 用 的 一 个 合 
适 的 重要 性 抽样 函数 , 因为 包 络 的 尾部 远 轻 于 目标 密度 的 尾部 . 图 6.7 的 右 半 部 分 
(同样 是 m = 100 000 和 n = 5 000) 显示 了 出 现 的 问题 . 虽然 在 远离 原点 10 个 
单位 的 地 方 , 斜 线 密度 的 尾部 赋予 了 可 估 的 概率 , 但 没有 来 自 正 态 密度 的 备 选 抽样 
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出 现在 离 原 点 超过 5 个 单位 的 地 方 . 因此 , 在 这 些 界限 之 外 , 目标 的 模拟 尾部 被 完 
全 截 去 了 . 此 外 , 生成 的 最 极端 备 选 抽样 在 正 态 包 络 下 的 密度 远 小 于 在 斜 线 目标 下 
的 , 因此 它们 的 重要 性 比率 极 高 . 这 导致 尾部 的 这 些 点 有 充足 的 再 抽样 . 事实 上 , 由 
SIR 选 出 的 5 000 个 值 中 的 528 个 是 直方 图 中 三 个 最 小 单一 值 的 重复 . 口 
例 6.4 (Bayes 推断 ) 假设 我 们 寻找 一 个 来 自 Bayes 分 析 的 后 验 分 布 的 样本 . 例如 ， 
这 样 的 样本 可 以 用 于 提供 后 验 矩 、 概 率 或 者 最 高 后 验 密度 区 间 的 Monte Carlo 估 
H. 令 f0) 表示 先 验 , L(9|z) 表示 似 然 , 那么 后 验 为 f(9|z) = cf(9)L(9|z), 其 中 常 
Be c 可 能 很 难 确定 . 如 果 先 验 没 有 严格 限制 由 数据 通过 似 然 函 数 支 持 的 参数 域 , 那 
么 先 验 可 作为 一 个 有 用 的 重要 性 抽样 函数 . 从 f(9) 中 独立 同 分 布地 取 01,… Om. 
因为 目标 密度 是 后 验 的 , 则 第 i 个 未 标准 化 的 权重 等 于 L(9;|z). 这 样 SIR 算法 有 
一 个 非常 简单 的 形式 : 从 先 验 中 抽样 , 由 似 然 函 数 确 定 权 重 , 然后 再 抽样 . 

例如 , 回顾 例 6.2， 在 该 案例 中 , 重要 性 抽样 开始 于 抽取 A Am ~ Lid. 
lognormal(4, 0.52). 重要 性 权重 与 L(Ai|z) 成 比例 . 利用 这 些 权 重 从 Ag, Am 中 
有 放 回 地 再 抽样 , 会 产生 后 验 分 布 的 一 个 近似 样本 . 口 


1. 自 适应 重要 、 桥 路 及 路 径 抽样 


某 些 情况 下 , 最 初 也 许 只 能 指定 一 个 很 差 的 重要 性 抽样 包 络 . 例如 , 当 目标 密 
度 的 支撑 几乎 限制 在 低 维 空间 或 者 曲面 上 时 , 可 能 发 生 这 种 情况 , 这 是 由 于 变量 间 
有 未 被 分 析 员 充分 了 解 的 强 依赖 性 . 在 另外 的 情况 下 , 我 们 可 能 希望 为 多 种 相关 的 
问题 构造 重要 性 抽样 , 但 是 没有 单一 的 包 络 适 合 感 兴趣 的 所 有 目标 密度 . 在 这 种 情 
况 下 , 调整 重要 性 抽样 包 络 是 可 能 的 . 

包 络 改进 的 一 种 方法 称 为 自 适应 重要 性 抽样 . 从 某 初 始 包 络 el 中 抽取 样本 量 
为 ma 的 一 个 初始 样本 . 将 该 样本 加 权重 (并 可 能 再 抽样 ) 以 得 到 感 兴趣 量 的 一 个 
初始 估计 或 者 f 本身 的 初始 观察 . 基于 得 到 的 信息 , 改进 包 络 产生 co. 需要 时 可 进 
行 更 多 的 重要 性 抽样 和 包 络 改进 步骤 . 当 这 种 步骤 结束 时 , 采用 所 有 步骤 产生 的 样 
本 以 及 它们 的 权重 来 制定 合适 的 推断 是 最 有 效率 的 . 另 一 方面 , 我 们 也 可 在 几 个 初 
始 步骤 中 力求 进行 快速 的 包 络 精炼, 把 多 数 的 模拟 精力 放 到 最 后 阶段 , 且 为 了 简单 ， 
将 推断 限定 在 该 最 后 样本 上 . 

在 参数 自 适应 重要 性 抽样 中 , 通常 假定 包 络 为 属于 以 某 个 低 维 参 数 为 指标 的 某 
密度 族 , 参数 的 最 优选 择 在 每 次 迭代 中 都 进行 估计 , 且 重 要 性 抽样 步骤 不 断 迭 代 直 
到 该 指标 参数 的 估计 稳定 为 止 [165, 332, 419, 420, 511]. 在 非 参数 自 适应 重要 性 抽 
样 中 , 包 络 通常 假定 为 一 个 混合 分 布 , 比如 像 用 第 10 章 中 核 密度 估计 方法 生成 的 
那样 . 重要 性 抽样 步骤 再 次 由 包 络 更 新 、 加 、 减 及 修改 混合 成 分 交替 进行 . 例子 包 
括 在 [222, 558, 559, 579] 中 . 尽管 在 某 些 情况 下 有 潜在 作用 , 但 这 些 方法 因 第 7 章 
中 介绍 的 马 式 链 Monte Carlo 方法 而 黯然 失色 , 这 是 因为 后 者 通常 更 简单 , BAD 
同样 有 效 . 


132 第 6 章 #424 Monte Carlo 积分 


当 单 一 的 包 络 不 足以 用 来 考虑 多 个 密度 时 , 包 络 改 进 的 第 二 种 方法 与 此 相关 . 
在 Bayes 统计 、 确 定 的 边际 似 然 以 及 缺失 值 问题 中 , 我 们 通常 感 兴趣 的 是 估计 一 对 
密度 的 归 一 化 常数 的 比率 . 例如 , 如 果 (9|z) = cigi(9|z) 表示 两 个 竞争 模型 下 0 
的 第 i 个 后 验 密 度 (i = 1,2), 其 中 gq; 已 知 但 ci RA, BA r= c2/c1 是 模型 1 对 模 
型 2 的 后 验 胜算 比 . Bayes 因子 就 是 7 与 先 验 胜算 比 的 比率 . 
因为 通常 很 难为 i 和 fo 都 找到 好 的 重要 性 抽样 包 络 , 一 个 标准 的 重要 性 抽样 
方法 是 用 单个 包 络 来 估计 r 例如 , 在 下 述 方便 的 情形 , 当 fo 的 支撑 包含 了 AX 
撑 且 我 们 能 用 fo 作为 包 络 时 , > = Ef{gi(9|z)/q2(6|z)}. 然而 , 当 fi 和 fo 区 别 较 大 
时 , 这 样 的 一 个 方法 就 会 表现 很 差 , 因为 没有 单个 包 络 能 充分 提供 cl 和 co 的 信息 . 
桥 路 抽样 的 方法 利用 一 个 未 归 一 化 密度 qvriage, 即 在 某 种 意义 下 位 于 q 和 go 之 间 
的 密度 [388]. 然后 注意 到 
_ Ep {goridge(O0|z2)/g2(0|2)} 
Ep, {doriage(9|x)/q1 (Ala) }’ 
我 们 可 以 利用 重要 性 抽样 来 估计 分 子 和 分 母 ， 这 可 使 每 个 任务 的 困难 减 半 ， 因 为 
qbridge 与 每 个 gi 比 两 个 g; 之 间 更 近 . 
原则 上 , 桥 路 的 思想 可 用 q 和 9 的 中 间 密 度 的 一 个 嵌 套 序列 通过 重复 (6.18) 
中 采用 的 策略 而 进行 扩展 . q 和 qs 之 间 的 序列 中 每 对 相 邻 的 密度 将 会 足够 地 接近 
以 保证 有 归 一 化 常数 的 相应 比率 的 可 靠 估计 , 并 且 从 这 些 比率 中 我 们 能 估计 ~. 实 
际 上 , 这 样 一 种 方法 的 极限 就 是 一 个 称 作 路 径 抽样 的 非常 简单 的 算法 . 详 见 [195]. 
2， 序 贯 重要 性 抽样 
序 贯 重要 性 抽样 是 一 种 每 次 一 维 来 构造 高 维 包 络 的 方法 . 令 Xei = (X1,…， 
Xi) 表示 一 个 p 维 变量 X = (X1,… Xp) 的 前 站 个 坐标 , 且 考虑 由 


(6.18) 


F(a) = jzai)f(zalzsl)j(zslz<2)… (zzlrsz-1) (6.19) 

给 出 的 目标 密度 的 分 解 . 用 同样 的 方式 分 解 包 络 9 得 到 
ar(z) = jzl)f(zzlzsl)f(zslr<a)…f(zplzsp-1) 
g(zl)g(zzlmsl)g(zslzs<2) 9g(zplz<p-1) 
作为 未 标准 化 重要 性 权重 的 表达 式 . 注意 到 该 式 建议 从 g(x1), g(zzlzs<i), g(zslz<?) 


等 中 序 贯 抽取 X 的 分 量 .在 这 种 情形 , 考虑 令 wi(z1) = f(z1)/g(z1), 并 对 i = 
2,… p 应 用 递归 表达 式 


(6.20) 


9(ail@<i-1) 
来 找到 w;(z<p) = w*(z). 等 式 (6.21) 看 上 去 会 提供 一 种 每 次 一 维 来 累积 总 体重 要 
性 权重 w*(z) 的 方式 , 但 这 是 不 实际 的 , 因为 条 件 分 布 f(zilz<i-1) 是 得 不 到 的 . 


wi (z<i) = wi, (@<i-1) 


(6.21) 
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然而 , 假设 我 们 能 构造 可 以 合理 近似 X< 的 边际 密度 f(z<i) 的 密度 , 其 中 
i 二 1,… ,Pp. 令 {f(z<1),… ,f(z<p)} 是 近似 {f(z<1),… ,f(z<p)} 的 任 一 边际 密 
度 序列 , 满足 jz<p) = f(x). WA Fæci)/ Faci) 就 是 feile) 的 一 个 近似 ， 
虽然 是 潜在 粗糙 的 一 个 . 不 过 我 们 可 以 在 (6.21) 的 思想 下 用 了 函数 来 重 加 权 来 自 
9 的 条 件 形 式 的 序 贯 样本 , 而 避免 对 f(zi|z<;_1) 的 依赖 . 

定义 wi(z1) = f(z1)/9(71) 及 


= Fesi) 
wes) = f(e<i-1)9(zile<i-1) ý (6:22) 
HP i=- iP: 那么 
p 
[[ «i(e<i) = f(@)/9(x) = w* (a). (6.23) 
i=l 


这 样 我 们 可 以 用 如 下 的 算法 来 生成 g 的 一 个 样本 和 相应 的 重要 性 权重 : 
(1) 通过 从 g(zi) 中 抽取 Xi 并 令 Wf(X1) = 用 X1)/g(X1) K i = 2 来 初始 化 ; 
(2) 给 定 Xei-1 = zci-1, 抽取 Xi ~ g(zilw<i-1); 
(3) 令 Xgi = (Xgi-1, Xi), 并 定义 


Wj (X <i) = W(X <i-r)ui(X <i); (6.24) 


(4) 增加 ; 并 返回 步骤 2, 直到 X 的 所 有 p 个 分 量 都 抽取 出 来 . 
这 些 步骤 结束 后 , X = X <p 及 W(X) = D(X cp) 构成 了 9 的 一 个 序 贯 生成 的 样 
本 和 一 个 重要 性 权重 , 该 权重 对 关于 目标 f 的 推断 做 了 修正 . 

注意 到 在 (6.24) 中 近似 函数 六 只 出 现在 比率 中 . 因此 , f 仅 需 在 差 一 个 比例 常 
数 下 指定 即 可 . 进而 , 由 于 最 终 都 被 抵消 了 , 故 它们 只 近似 目标 的 真实 边际 , 以 使 得 
在 一 定 程度 上 合适 地 指导 权重 的 计算 即 可 . 

当 了 能 用 来 改进 普通 的 重要 性 抽样 得 到 的 总 体 包 络 时 , 该 方法 的 需求 最 为 显 
著 . 例如 , 对 某 些 i, 对 f 下 X 的 边际 或 条 件 分 布 的 了 解 可 以 用 来 改进 样本 的 生成 . 
进而 , 当 部 分 生成 的 样本 点 非常 差 以 使 得 完整 样本 会 有 可 忽略 的 重要 性 权重 时 , 可 
以 监测 局 部 权重 wt (X <,) 以 进行 修正 . 

实施 序 贯 重要 性 抽样 的 其 他 细节 , 包括 对 逐渐 减少 的 局 部 权重 的 修正 , 在 [336， 
357, 358] 给 出 . 在 抽取 稀疏 列 联 表 这 一 难题 上 的 一 个 特别 吸引 人 的 应 用 在 [92] 中 
给 出 . 


6.3 ”方差 缩减 技术 
[rotae 的 简单 Monte Carlo 估计 为 fiwc = 15° A(X), 其 中 变量 


i=l 
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-Xn BA f 中 随机 抽取 的 .这 种 方法 直觉 上 很 吸引 人 , 因此 我 们 更 加 关 
WA f 生成 样本 的 方法 了 . 然而 在 某 些 情况 下 , 可 以 得 到 更 好 的 Monte Carlo 估计 . 
这 些 方法 仍 基 于 平均 化 Monte Carlo 样本 的 原则 , 但 它们 采用 了 更 聪明 的 抽样 方法 
和 不 同形 式 的 估计 以 得 到 比 最 简单 Monte Carlo 方法 有 更 小 方差 的 积分 估计 . 
6.3.1 ”重要 性 抽样 


BBA itt —- MEF 1 的 概率 . ORT n 次 , 我 们 会 期 望 看 到 
n/6 个 1, 真实 概率 的 点 估计 是 1 在 样本 中 出 现 的 比例 . 如 果 骨 子 是 公平 的 , 那么 
该 估计 的 方差 是 Sf. 要 得 到 具有 某 变异 系数 如 5% 的 一 个 估计 , 我 们 应 该 预计 要 
掷 2 000 次 . 

为 了 减少 所 需 的 投掷 次 数 , 考虑 将 点 数 为 2 和 3 的 两 面 用 点 数 1 的 面 来 取代 
VERE. 这 样 丘 出 一 个 1 的 概率 便 增 加 到 了 0.5, 但 我 们 不 再 从 一 个 公平 的 般 
子 提供 的 目标 分 布 中 抽样 了 . 为 了 修正 这 一 情况 , 我 们 设 掷 出 1 的 每 次 投掷 的 权重 
为 1/3. 也 就 是 说 , 当 掷 出 1 时 Ke = 1/3, 否则 Y; = 0. BA Y: 的 样本 均值 的 期 望 
就 是 1/6, 该 样本 均值 的 方差 是 sh. 对 该 估计 , 如 果 要 得 到 5% 的 变异 系数 , 我 们 
预计 只 要 掷 400 次 

这 一 改进 的 精度 是 通过 提高 关注 事件 相对 于 它 在 原始 Monte Carlo 抽样 框架 
下 的 发 生 频 率 而 得 到 的 , 因此 能 更 精确 地 估计 它 . 用 重要 性 抽样 的 术语 , RR 
例子 是 成 功 的 , 这 是 因为 一 个 重要 性 抽样 分 布 (对 应 于 搓 有 3 个 1 KRF) 用 于 对 
目标 分 布 (适合 于 公平 般 子 的 结果 ) 下 得 到 较 低 概率 的 状态 空间 的 一 部 分 进行 过 抽 
样 ， 重要 性 加 权 修正 了 这 一 偏 置 且 能 给 出 一 个 改进 的 估计 . 对 于 非常 罕见 的 事件 ， 
极 大 地 减少 Monte Carlo 方差 是 可 能 的 . 

重要 性 抽样 方法 基于 这 样 的 原则 : B h(X) 关于 密度 7 的 期 望 可 以 写成 如 下 
替代 的 形式 


u= frase æ)dz = [re {9, (x)da, (6.25) 
或 
ek (@)f(e)de mi Me gece 
; (6.26) 
fiex nop gejdz 


其 中 9 是 另 一 个 密度 函数 , 称 之 为 重要 性 抽样 函数 或 者 包 络 . 
等 式 (6.25) 建议 用 来 估计 E{A(X)} 的 一 种 Monte Carlo 方法 是 : 从 9 中 抽取 
独立 同 分 布 的 样本 Xi … ,入 并 采用 估计 


fis = EDAX), (6.27) 
i=l 
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其 中 w*(Xi) = f(Xi)/g(Xi) 是 未 标准 化 权重 , 也 称 为 重要 性 比率 . 为 了 便于 使 用 
该 方法 , 从 g 中 抽样 以 及 计算 f 一 定 要 简便 , 即使 在 从 f 中 抽样 不 容易 时 
ZER (6.26) 建议 从 g 中 抽取 独立 同 分 布 的 样本 入 1,… ,XX 并 采用 估计 


fs = DL AX wx), (6.28) 


i=l 


FHF w(X:) = w*(X, MÉX) ) 是 标准 化 权重 . 第 二 种 方法 特别 重要 , CESA 
差 一 个 比例 常数 下 已 知 时 可 以 使 用 ， 就 像 在 Bayes 分 析 中 f 是 一 个 后 验 密度 这 一 
常见 的 情形 一 样 . 

只 要 包 络 的 支撑 包含 的 所 有 支撑 , 那么 两 个 估计 以 适用 于 (6.1) 给 出 的 简 
单 Monte Carlo 估计 的 同样 依据 收敛 ， 为 了 避免 估计 量 的 过 度 变异 , 重要 的 是 
f(z)/g(z) 被 界定 住 且 9 的 尾部 要 比 f 重 ， 如 果 该 要 求 没有 满足 ,那么 有 些 标准 
化 重要 性 权重 将 会 是 巨大 的 . 如 果 来 自 9 的 某 罕见 抽样 在 了 下 的 密度 远 高 于 9 下 
的 密度 , 那么 它 会 得 到 巨大 的 权重 并 且 会 扩大 估计 的 方差. 

自然 地 , 4 X ~ g 时 , gX) 通常 比 (X) K, 然而 容易 说 明 BE{f(X)/g(X)} = 
1. 因此 , 如 果 f(X)/g(X) 的 平均 值 为 1, 那么 这 个 比率 一 定 有 时 会 相当 大 以 平衡 0 
到 1 之 间 值 的 优势 . 这 样 , /(X)/9(X) 的 方差 会 趋向 很 大 . 因此 , 我 们 应 该 会 预期 
h(X)f(X)/g(X) 的 方差 也 很 大 . 为 了 让 p 的 重要 性 抽样 估计 有 较 低 的 方差 , 我 们 
要 选择 函数 9 HAL h(x) 非常 小 时 f(z)/g(z) BEX. 例如 , 当 h 是 一 个 仅 对 某 
非常 罕见 的 事件 等 于 1 的 示 性 函数 时 , 我 们 可 以 选择 能 使 这 个 事件 发 生 更 加 频繁 
的 9 来 抽样 , 而 却 无 法 保证 充分 地 抽出 h(z) = 0 的 那些 不 感 兴趣 的 结果 . 该 方法 
在 对 估计 某 小 概率 感 兴趣 的 情形 很 好 用 , 例如 估计 统计 功效 、 失 效 或 超越 概率 ,以 
及 组 合 空间 上 的 似 然 , 这 样 的 空间 常 随 着 遗传 数据 而 出 现 . 

有 效 样本 量 这 一 非 正 式 度量 可 用 来 度量 采用 包 络 9 的 重要 性 抽样 方法 的 效率 . 
当 f 准确 已 知 并 像 在 (6.27) 中 那样 使 用 未 标准 化 权重 时 , 有 效 样 本 量 是 


N(g,f) = (6.29) 


n 
1+ arw (XJF 
其 中 var(w*(X)} 是 w*(Xi) 的 样本 方差 . 当 f 在 仅 差 一 个 比例 常数 下 已 知 且 像 在 
(6.28) 中 那样 使 用 标准 化 权重 时 , 我 们 可 用 


N(g,f) = (6.30) 


1+ Pia 
中 {w(X)} 是 标准 化 重要 性 权重 的 样本 标准 差 除 以 它们 的 样本 均值 . 有 效 样本 
量 是 9 5 f 有 多 大 差别 的 一 个 度量 . 它 可 以 解释 为 重要 性 抽样 估计 中 用 到 的 n 个 
加 权 抽 样 相当 于 六 (9, f) 个 准确 来 自 f 并 用 于 简单 Monte Carlo 估计 的 未 加 权 独 
立 同 分 布 的 样本 [336, 357]. 
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使 用 未 标准 化 权重 还 是 标准 化 权重 的 选择 依赖 于 几 个 考虑 因素 . 首先 考虑 (6.27) 
中 用 未 标准 化 权重 定义 的 估计 iis 令 te) = haju (2). 当 XX1,… ,Xa 是 来 自 
9 的 独立 同 分 布 的 样本 时 ， 令 wt 和 F 分 别 表示 wX) 和 X) 的 均值 . 注意 
E{w*} = E{w*(X)} =1. RE, 


Ef fis} = Z DOBH} = 6.31) 
且 
var iis} = 让 Dwele D) = Lvar{t(X)}. (6.32) 


因而 Ais 是 无 偏 的 , 其 Monte Carlo 标准 误 的 一 个 估计 是 t(X1),--- (Xn) 的 样本 
标准 差 除 以 n. 

现在 考虑 在 (6.28) 中 定义 的 采用 重要 性 权重 标准 化 的 估计 Ms. 注意 到 is = 
Ef/w*. Taylor 级 数 近似 得 到 


Effus} =E{1 — (w* — 1) + (w* — 1)? +---]} 
=E{t — (ë - )(w* — 1) — w(w* — 1) + Hw" — 1)? +--+} 
=p- + cov(t(X),w*(X)} + Evar{w*(X)} +O(1/n?), (6.33) 
因而 , 重要 性 权重 的 标准 化 在 估计 fis 上 引入 了 一 个 微小 的 偏差 . 这 个 偏差 可 以 通 
过 用 Monte Carlo 抽样 得 到 的 样本 估计 替换 (6.33) 中 的 方差 和 协 方差 项 而 估计 ; 参 


见 例 6.8. 
fas 的 方差 可 类 似 得 到 


varfhs}= 荆 marft(X) }4+-p?var{w*(X)}—2ycov{t(X), w*(X)}]+O(1/n2). (6.34) 


另外 , firs 的 一 个 方差 估计 可 以 通过 用 Monte Carlo 抽样 得 到 的 样本 估计 替换 (6.34) 
中 的 方差 和 协 方差 项 而 计算 得 到 . 
最 后 , 考虑 fits 和 us 的 均 方 误差 . 结合 上 面 得 到 的 偏差 和 方差 的 估计 , 我 们 
发 现 
MSE{fus} — MSE{fis} 
z = (var(w"(X) )} — 2ucov{t(X), w*(X)}) + O(1/n2). (6.35) 
不 失 一 般 性 , 假定 六 > 0, 当 


cv{w*(X)} 


cor{e(X),w"(X)} > Seay (6.36) 
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时 , (6.35) 中 的 主要 项 给 出 均 方 误差 的 近似 差 为 负 , 其 中 cv{.} 为 变异 系数 . 该 条 件 
可 用 上 述 讨论 的 基于 样本 的 估计 进行 检验 . 这 样 , 当 w (X) 和 hX w (X) 强 相关 
时 , 采用 标准 化 权重 可 以 提供 一 个 更 好 的 估计 . 除 这 些 考虑 之 外 , 采用 标准 化 权重 
的 一 个 主要 优点 是 不 需要 知道 f 的 比例 常数 . Hesterberg 告诫 说 在 许多 情况 下 采 
用 标准 化 权重 要 比 采 用 原始 权重 更 差 , 特别 是 当 估计 小 概率 时 , 并 推荐 考虑 在 下 面 
例 6.8 中 描述 的 改进 的 重要 性 抽样 方法 [284]、Casella 和 Robert 也 讨论 了 重要 性 
权重 的 多 种 使 用 方法 . 

采用 重要 性 权重 是 SIR 算法 的 回顾 (6.2.4 节 ), 值得 将 jirs 的 估计 性 质 与 SIR 
抽样 的 样本 均值 的 性 质 作 一 下 比较 . 假设 具有 相应 权重 wY 1), ,w(Ym) 的 一 个 
初始 样本 Yis, Ym 被 重 抽样 得 到 n 个 SIR 抽样 XX1,… ,Xn, 其 中 n<m. 令 
eme $ ÈN) 为 nu 的 SIR 估计 . 

当 关 注 点 限制 在 的 估计 上 时 , 重要 性 抽样 估计 fos 通常 优 于 Asm. 为 说 明 这 
È WY wr (Y a) 

xu (Ys) 


ZA, ERR E(fisin} = E{h(Xi)} =E{E{h(X3)[¥a,+++, Y m}} =E 


= E{fis}. 因此 SIR 估计 与 jrs 有 相同 的 偏差 . 然而 , Asm 的 方差 是 


var {fisin} = E{var{ûsm|Y 1,- ,Ym}} + var{E{ûsm|Y 1; ,Ym}} 
S hY sw" (Yi) 
=Ef{var{ĝsmlY 1,- ,¥m}} + var 4 =} 
Lw 


> var{ĝıs}. (6.37) 


这 样 SIR 估计 在 牺牲 精度 下 提供 了 方便 . 

任何 重要 性 抽样 方法 的 一 个 吸引 人 的 特点 就 是 重新 使 用 模拟 的 可 能 性 ， 相 同 
的 抽样 点 和 权重 可 用 于 计算 多 种 不 同 量 的 Monte Carlo 积分 估计 . 权重 可 以 改变 以 
反映 一 个 可 选择 的 重要 性 抽样 包 络 , 以 评价 或 改进 估计 本 身 的 表现 . 权重 也 可 以 改 
变 以 反映 一 个 可 选择 的 目标 分 布 , 从 而 估计 A(X) 关于 一 个 不 同 密度 的 期 望 . 

例如 , 在 Bayes 分 析 中 , 为 了 进行 Bayes 灵敏 度 分 析 或 在 新 的 信息 下 经 由 Bayes 
定理 序 贯 更 新 先前 的 结果 , 我 们 可 以 有 效 地 更 新 基于 某 修 正 的 后 验 分 布 的 估计 . 这 
样 的 更 新 可 通过 将 每 个 存在 的 权重 ww" (Xi) 乘 以 一 个 调整 因子 而 实现 . 例如 , 如 果 f 
TEX RAH p 的 一 个 后 验 分 布 , 那么 对 于 i 二 1,… ,n, 权重 w(Xi)p2(Xi)/pi(Xi) 
可 与 现 有 样本 一 起 用 于 提供 采用 先 验 p 的 后 验 分 布 的 推断 
例 6.5 (网 络 失效 概率 ) 许多 系统 都 可 用 如 图 6.8 的 连通 图 来 表示 . 这 些 图 由 节点 
(PA) 和 边 (线段 ) 组 成 . 信号 从 A 传送 到 B 必须 经 由 沿 任何 现 有 边 的 路 径 . 有 缺 
陷 的 网 络 可 靠 性 意味 着 信号 可 能 无 法 在 任 一 对 连通 节点 之 间 正 确 传递 一 一 也 就 是 
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说 , 某 些 边 可 能 断 掉 了 . 为 了 让 信号 成 功 到 达 B, 必须 存在 一 条 从 4 到 B 的 连通 
Be. 例如 , 图 6.9 给 出 了 一 个 只 保留 4 到 B 的 少数 路 径 的 退化 网 络 . 如 果 该 图 
中 最 底下 的 水 平 边 断 掉 了 , 那么 该 网 络 就 会 失效 . 


图 6.8 例 6.5 中 描述 的 连接 A 和 B 的 网 络 


网 络 图 可 用 以 对 许多 系统 建 模 . 自然 地 , 这 种 网 络 可 以 对 不 同类 型 信号 的 传输 
建 模 , 例如 模拟 声音 传输 、 电 磁 数 字 信号 和 数字 数据 的 光 传导 . 这 个 模型 也 更 多 的 
是 概念 上 的 , 每 条 边 代表 为 得 到 某 结果 需要 参与 的 不 同 机 器 或 人 . 通常 , 感 兴趣 的 

-个 重要 量 是 在 给 定 每 条 边 的 特定 失效 概率 下 网 络 失效 的 概率 . 

考虑 最 简单 的 情况 , 假设 每 条 边 以 相同 的 概率 p 独立 失效 ， 在 许多 信号 处 理 
应 用 中 p 可 以 是 相当 小 的 . 许多 类 型 信号 传输 的 比特 误差 率 在 10-10 ~ 10-3 变动 
[513]. 

令 X 表示 一 个 网 络 , 汇总 每 条 边 的 随机 结果 : 完整 无 缺 的 或 是 失效 的 . 我 们 
的 例子 里 考虑 的 网 络 有 20 条 潜在 的 边 , 因此 X = (X1, , X20). 令 UX) 表示 X 
中 断 边 的 个 数 . 图 6.8 中 的 网 络 有 MX) = 0; 图 6.9 中 的 网 络 有 MX) = 10. > 
A(X) 表示 网 络 失效 , 因而 如 果 A 没有 连接 到 B, 则 A(X) = 1, 而 如 果 4 和 B 是 
连通 的 , A(X) = 0. 于 是 网 络 失效 的 概率 为 u= E{h(X)}. 对 任 一 现实 大 小 的 网 络 ， 
计算 p 会 是 一 个 非常 困难 的 组 合 问题 . 


图 6.9 例 6.5 中 描述 的 连接 4 和 B 的 网 络 , 其 中 某 些 边 断 掉 了 


n 的 原始 Monte Carlo 估计 是 通过 从 所 有 可 能 网 络 结构 的 集合 中 独立 均匀 随 
机 抽取 的 Xi Xn 而 得 到 的 , 其 中 网 络 的 每 条 边 以 概率 p 独立 失效 . 估计 如 下 
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计算 
pvc = + A(X). (6.38) 
i=l 


注意 到 这 个 估计 具有 方差 uA - p/n， 对 n = 100 000 和 p = 0.05, 模拟 得 到 
Amo = 2.00 x 10-5, 其 中 Monte Carlo 标准 误 大 约 是 1.41 x 1075. 

Ac 的 问题 是 AX) 极 少 是 1, 除非 p 不 切实 际 的 大 . 因而 , 为 了 以 足够 的 精 
度 估计 u 就 需要 模拟 很 多 的 网 络 ， 取 而 代 之 , 我 们 可 以 采用 重要 性 抽样 来 关注 使 
A(X) = 1 的 XX 的 模拟 , 并 通过 分 配 重要 性 权重 修正 该 偏差 . 随后 的 计算 采用 该 策 
略 , 并 使 用 像 (6.27) 中 那样 的 未 标准 化 重要 性 权重 . 

假设 我 们 通过 断 掉 图 6.8 中 的 边 形成 网 络 结构 来 模拟 X, XT, 并 假定 独 
立 边 失 效 概 率 为 p* >p. X; 的 重要 性 权重 可 以 写成 


.rs (122 \” (20 auc 
wan- (Es) G a) : (6.39) 
且 ,4 的 重要 性 抽样 估计 为 
fis = Z DO hx) w(x) (6.40) 


S 表示 所 有 可 能 网 络 结构 的 集合 , 并 令 FRR 4 和 B 不 连通 的 结构 的 子 
集 . 那么 


varfpis} = (6.41) 
-i (ELUX ADP} ~ EX w (XDP) (642) 
= (= niet — py") L 2 (6.43) 
现在 , 对 从 图 6.8 得 到 的 一 个 网 络 , 仅 当 bX) > 4 时 发 生 失效 . 因此 ， 
1-p\” (p(—p*)\* 
ut) (; far (ea 2?) : (6-44), 
4 p* = 0.25 H p= 0.05 时 , RAIA w*(X) < 0.07. 这 种 情况 下 ， 
var{Ajs} < * (omy Do paa — py?) 一 中 (6.45) 
F 
-人 07 》 h(w)p")(1 一 D)20 xm) 一 s) (6.46) 
PEC 
0.074 — p? 


(6.47) 


n 
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这 样 var{firs} 充分 地 小 于 var{fiwc}. 对 于 较 小 的 py 和 相对 较 大 的 c, 在 cu- p? x cp 
的 近似 下 , 我 们 看 出 var{jimc}/var{ fis} = 14. 

用 原始 的 模拟 方法 , p = 0.05 时 , 100 000 次 模拟 仅 有 2 次 失效 . 然而 , p* = 0.25 
的 重要 性 抽样 方法 抽出 了 497 次 失效 的 网 络 , 并 得 到 Ais = 1.01x 10-5, Monte Carlo 
标准 误 是 1.56 x 10-5. 

关于 网 络 可 靠 性 问题 的 相关 Monte Carlo 方差 缩减 技术 详 见 [366]. 口 
6.3.2 ”对 偶 抽 样 


Monte Carlo 积分 方差 缩减 的 第 二 种 方法 依赖 于 找到 两 个 相同 分 布 的 无 偏 估计 
Bx 和 jin, 二 者 是 负 相关 的 , 平均 这 些 估计 要 优 于 用 双 倍 的 样本 量 单独 使 用 其 中 一 
个 估计 , 因为 估计 


Pas = (fu + fiz)/2 (6.48) 
有 方差 


2 
var{fins) = T(var(sii} + var{in}) + eorla sia} = EEA, (649) 
其 中 p 是 两 个 估计 的 相关 系数 , 0?/n 是 任 一 估计 在 样本 量 n 下 的 方差 . 这 种 成 对 
的 估计 可 以 采用 对 偶 抽样 方法 生成 [264, 466). 

给 定 一 个 初始 估计 fi, 问题 是 如 何 构造 第 二 个 相同 分 布 的 、 与 如 负 相关 的 
估计 pra， 在 很 多 情况 下 ,构造 这 种 估计 的 一 个 简便 方法 是 再 次 使 用 大 小 为 n 的 
一 个 模拟 样本 , 而 不 是 随便 抽取 第 二 个 样本 ， 为 描述 这 种 方法 ,我们 必须 首先 引 
入 一 些 记号 . 令 X 表示 独立 同 分 布 的 随机 变量 的 一 个 集合 {1,… , XX,}， 假 设 
a(X) = È ha(Xi)/n, 其 中 h 是 一 个 有 m 个 自 变量 的 实 值 函数 , 这 样 hi(X;) = 


hi(Xia，… ,Xim). 假定 E{h(Xi)} = u. 令 fa(X) = È ho(XXi)/n 为 第 二 个 估计 ， 
其 中 h 有 类 似 的 假设 . 

我 们 将 证 明 如 果 hy 和 j 在 每 个 参数 上 同时 增加 (或 减少 ), 那么 cov{h (X), 
ho(X;)} 是 正 的 . 从 这 一 结果 , 我 们 能 够 决定 hy 和 he 保证 cor{fi1, fi2} 是 负 的 所 需 
要 的 条 件 . 

证 明 通 过 归纳 进行 . 假定 上 面 的 假设 成 立 且 m = 1. 那么 对 任意 的 随机 变量 X 
和 Y 


[hi(X) — (Yha(X) — ha(¥)] > 0. (6.50) 


此 , (6.50) 左手 边 的 期 望 也 是 非 负 的 . 那么 , 当 X ALY 独立 同 分 布 时 , 这 个 非 负 
期 望 意味 着 


cov{hi(X;), ho(Xi)} > 0. (6.51) 
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现在 , 假设 当 X: 是 一 个 长 度 为 m — 1 的 随机 向 量 时 所 要 的 结果 成 立 , 且 考 虑 
当 Xi = (Xas ,Xim) 的 情况 . 那么 , 由 假设 可 知 , 随机 变量 


cov{hi(Xi), ha( Xi)|Xim} > 0. (6.52) 
取 这 个 不 等 式 的 期 望 , 得 到 


0 < E{E{hi(X;)ho(Xi)|Xim}} — E{E{hi(X;)|Xim}E{ho(Xi)|Xin}} 
<E{hi(X)ha(X,)} — E{E{hi (XXim}} E(B{ha( XIXim}} (6.53) 
=cov{hi(Xi), hz(Xi)}, 


其 中 (6.53) 式 右 侧 乘积 中 项 的 替换 遵循 了 以 下 事实 : 对 j=1,2, 每 个 E{h;(X;)|Xim} 
是 单一 随机 自 变量 Xim 的 一 个 函数 , 且 适 用 于 结果 (6.51). 

因此 , 我 们 通过 归纳 证 明了 六 (Xi) 和 hs(X;) 在 这 些 情 况 下 是 正 相关 的 ; 由 
此 可 知 fy 和 fig 也 是 正 相关 的 . 我 们 留 给 读者 来 证 实 如 下 关键 推论 : 如 果 h 和 
hz 是 m 个 随机 变量 Ui,- , Um 的 函数 , 并 且 如 果 每 个 函数 在 每 个 自 变量 上 是 单 
调 的 , 那么 cov{hi (U1, Um), ha(1- Ui, ++ ,1 一 Um)} <0. 我们 从 前 面 的 证 明 中 
可 简单 推出 这 个 结果 : 重新 定义 hy 和 ho 以 构造 两 个 关于 它们 的 自 变量 增加 的 函 
数 , 这 些 自 变量 满足 前 面 的 假设 . 见 问题 6.5. 

现在 对 偶 抽 样 方法 变 得 明显 了 . Monte Carlo 积分 估计 A(X) 可 以 写成 


M(X) = È YO M(E Ua), Fn Wim), (6.54) 
气 

其 中 Fj 是 每 个 Xy = 1,… ,m) 的 累积 分 布 函数 且 Uy 是 独立 的 Unif(0,1) 随 
机 变量 . 由 于 万 是 累积 分 布 函数 , 它 的 逆 函 数 非 减 .因此 , 只 要 h 在 它 的 自 变量 
上 是 单调 的 , hi(Fi (Uan), Fa (Uim)) 在 每 个 Ui; 上 也 是 单调 的 , j = 1,… ,m. 
此 外 , 如 果 Ui; ~ Unif(0,1), 那么 1 一 Ui; ~ Unif(0,1). 因此 , hi(Ui) = ha(FT (1 一 
Un) Fig) (1—UVim)) 在 每 个 自 变量 上 是 单调 的 且 与 hh (F717(Un),… ,Fs1(Uim)) 
有 相同 的 分 布 . 所 以 


BOO = E DOMETO - Va), FR? (l ~ Vin) (6.55) 
i=l 


是 u 的 第 二 个 估计 , CAS aX) 相同 的 分 布 . 我 们 以 上 的 分 析 使 我 们 得 出 结论 
cov{ jis (X), fi2(X)} < 0. (6.56) 


所 以 ,估计 fas = (fa + 加 )/2 会 比 fh 的 方差 更 小 , 并 会 有 大 小 为 2n 的 一 个 样本 . 
等 式 (6.49) 量化 了 改进 的 量 . 我 们 在 仅 产 生 x, 个 随机 数 的 单一 集合 , 并 从 对 偶 原 理 
得 到 其 他 的 n 个 的 同时 实现 了 这 样 的 改进 . 
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例 6.6 ( 正 态 期 望 ) 假设 X 有 一 个 标准 正 态 分布 , 且 我 们 希望 估计 /= E{h(X)}, 
其 中 A(z) = z/(2* — 1)， 一 个 标准 Monte Carlo 估计 可 以 计算 为 n = 100 000 
个 h(X;) 值 的 样本 均值 , 其 中 X1,… Xn ~ iid. N(0,1). 一 个 对 偶 估 计 可 以 用 前 
n = 50 000 个 样本 来 构造 . X; 的 对 偶 变 量 仅仅 是 -Xi， 所 以 对 偶 估 计 是 jias = 


PSPP a(x.) + A(—X;)]/100 000. 在 模拟 中 , GHEX), t(-X:)} = —0.95, 所 以 对 偶 广 
i=l 


法 是 有 利 可 图 的 . 标准 方法 求 得 Amc = 1.499 3, 其 Monte Carlo 标准 误 是 0.001 6, 
而 对 侦 方法 得 到 Aas = 1.499 2, 其 标准 误 是 0.000 3 (用 样本 方差 和 相关 系数 通过 
(6.49) 估计 ). 进一步 的 模拟 证 实 了 对 偶 方 法 的 标准 误 有 4 倍 多 的 缩减 . 口 
例 6.7 (网 络 失效 概率 , 续 ) 回顾 例 6.5, 458 i 个 模拟 网 络 X; 是 由 标准 均匀 随 
机 变量 Un, Uim 决定 的 , 其 中 m = 20. WR Uy < p, 那么 第 i 个 模拟 网 络 的 
第 j 条 边 是 断 掉 的 . 现在 如 果 A 和 B 不 连通 , 那么 h(i) = hUa, ,Uim) 等 于 
1, 如 果 连 通则 等 于 0. 注意 到 h 在 每 个 Uy 上 是 非 减 的 ; 因此 对 偶 方 法 将 是 有 利 可 
图 的 . 因为 X; 是 通过 当 Uy <p 时 断 掉 第 j 条 边 得 到 的 , 其 中 ; = 1,… ,m, 对 用 
来 生成 X: 的 Ui; 的 同一 集合 , 对 偶 网 络 抽样 XT 是 通过 当 U;; > 1 - p 时 断 掉 第 
了 条 边 得 到 的 . 这 种 方法 导致 的 负 相 关 将 保证 去 ( EMX)+AX)) 是 一 个 优 于 


站 nx) 的 估计 . o 


6.3.3 ”控制 变量 

控制 变量 方法 通过 将 估计 量 与 某 相关 的 积分 估计 (其 值 已 知 ) 关联 以 改进 某 未 
知 积分 的 估计 . 假设 希望 估计 未 知 量 y= E{h(X)}, 并 且 我 们 知道 一 个 相关 的 量 0 = 
E{c(Y)}, 它 的 值 能 够 解析 确定 . 令 (Xi1,Y1),… (Xn, Yn) 表示 独立 观测 为 模拟 结 
果 的 随机 变量 对 , AH i j 时 , cov{ Xi, Xj} = cov{¥;, Yj} = cov{ Xi, Yj} =0. 
简单 Monte Carlo 估计 是 fimc = = h(Xi) 和 bc = - 5 c(Yi). 当然 , bc 是 

i=l i=1 

不 必要 的 , 因为 9 能 够 解析 得 到 ， 然 而 , 注意 到 当 cor{h(Xi),c(Yi)} #0 时 , fme 
和 bc 是 相关 的 . 例如 , 如 果 相关 系数 为 正 , bwc 的 一 个 显著 高 的 结果 应 该 倾向 于 
与 fwc 的 一 个 显著 高 的 结果 关联 . WR bic 与 9 的 比较 给 出 这 样 一 个 结果 , 那么 
我 们 应 该 相应 地 向 下 调整 ic. 当 相 关系 数 为 负 时 , 应 作 相 反 的 调整 . 

此 推理 提出 了 控制 变量 估计 


ficy = jimc + A(Omc — 0), (6.57) 
其 中 和 是 需要 使 用 者 选择 的 一 个 参数 . 可 以 直接 证 明 


var{ficv} = var{fac} + \*var{8mc} + 2Acov{ fimo, Ouc}- (6.58) 
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将 该 值 关于 和 最 小 化 给 出 最 小 方差 ， 


(covfpvc， puc ) 。 


min(var{ficv}) = var{ĝmc} 一 var{Ouc} 


(6.59) 


—cov{ imc, uc} 
var{Ovc} 

时 达到 . 这 个 最 优 的 A 依赖 于 h(Xi) 和 c(Yi) 的 未 知 矩 , 但 它们 可 用 样本 (Xi 

Yi) (Xn, Yn) 来 估计 . 特别 地 , 在 (6.60) 中 使 用 


A= (6.60) 


fuc} = oes bY) ~ 2? 


aS 元 (6.61) 


ays -可 


eic) = X ES 


mr 


(6.62) 


可 得 到 一 个 估计 À, 其 中 5= 2S of ma . 进一步 地 , 将 这 些 样 


本 方差 和 协 方差 估计 代入 到 (6. 59) 的 右边 可 得 到 ficv 的 一 个 方差 估计 . 

实际 上 , Amc 和 bxc 通常 依赖 于 相同 的 随机 变量 , 所 以 Xi = Yi. 同样 , 使 用 
多 于 一 个 的 控制 变量 也 是 可 能 的 . 这 种 情况 下 , 当 使 用 m 个 控制 变量 时 , 我 们 可 以 
将 估计 量 写 成 jicv = fime + x dj (Omc,; — 95). 


等 式 (6.59) 表明 使 用 jicv 代替 Ame 得 到 的 方差 缩减 比例 等 于 imo Al bxwc 的 
相关 系数 的 平方 . 如 果 这 个 结果 听 起 来 熟悉 , 那么 你 经 敏锐 地 注意 到 与 简单 线性 回 
归 的 一 个 相似 之 处 了 . 考虑 回归 模型 B{h(Xi)|Y; = yi} = Bo + Bic(y;), 且 有 着 通 
常 的 回归 假设 和 估计 . 则 入 = -Â E fmc +AlÔmc 一 9) = 序 十 记 9. 也 就 是 说 , 控制 
变量 估计 是 回归 线 在 自 变量 均值 ( 即 在 9) 处 的 拟 合 值 , 且 该 控制 变量 估计 的 标准 误 
是 回归 拟 合 值 的 标准 误 . 因而 , 线性 回归 软件 可 用 于 求 出 控制 变量 估计 和 一 个 对 应 
的 置信 区 间 . 当 使 用 多 个 控制 变量 时 , 可 以 使 用 多 元 线性 回归 求 出 At = 1,… ,m) 
和 ficy [466]. 

问题 6.5 要 求 你 指出 方差 缩减 的 对 偶 方 法 可 以 看 成 控制 变量 方法 的 一 种 特殊 
情况 . 

例 6.8 (重要 性 抽样 的 一 个 控制 变量 ) Hesterberg 建议 使 用 一 个 控制 变量 估计 来 
改进 重要 性 抽样 [284]. 重要 性 抽样 是 建立 在 从 一 个 包 络 中 抽样 的 想法 上 的 , 该 想法 
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引出 了 h(X)w*(X) 和 w*(X) 间 的 一 个 相互 关系 . 此 外 , 我 们 知道 Efw*(X)} = 1. 
因此 , 这 种 情况 下 很 适合 使 用 控制 变量 o = 2 w" (Xi)/n， 如 果 平均 权重 超过 1, 
那么 h(X)w*(X) 的 平均 值 也 可 能 显著 地 高 , 这 种 情况 下 , frs 可 能 与 它 的 期 望 u 
不 同 . 因此 , 重要 性 抽样 控制 变量 估计 是 


Pscv = fis + Aw" — 1). (6.63) 


入 值 和 Ascv 的 标准 误 可 以 像 前 面 描述 的 那样 从 AX w (X) 关于 w*(X) 的 一 个 
回归 中 估计 得 到 . 像 使 用 标准 化 权重 的 fis 一 样 , 估计 firscv 有 O(1/n) 阶 的 偏差 ， 
但 是 通常 比 (6.27) 中 给 出 的 带 未 标准 化 权重 的 重要 性 抽样 估计 iis 有 较 低 的 均 方 
RE. 口 
例 6.9 (期 权 定价 ) 看 涨 期 权 是 一 种 金融 工具 , 它 给 持 有 者 权利 (而 不 是 义务 ) 在 
特定 的 到 期 日 或 之 前 , 以 特定 的 价格 购买 特定 数量 的 金融 资产 . 在 欧式 看 涨 期 权 中 ， 
期 权 只 能 在 到 期 日 执行 . 执行 价格 是 指 期 权 执行 时 完成 交易 的 价格 . 令 SO 表示 基 
本 金融 资产 (比如 , 股票 ) 在 时 刻 t 的 价格 . 记 执行 价格 为 K, 并 令 T 表示 到 期 日 . 
当时 刻 T 到 达 时 , 如 果 K > SP), 看 涨 期 权 的 持 有 者 不 希望 执行 他 的 期 权 , 因为 他 
在 公开 市 场 能 更 便宜 地 得 到 股票 . 然而 , 当 K < SO) 时 期 权 就 有 价值 了 , 因为 他 能 
以 低 价 K 购 得 股票 并 且 立 即 以 更 高 的 市 场 价格 SO 卖 掉 它 . 重要 的 是 要 确定 该 
看 涨 期 权 的 购买 者 在 到 期 日 T 和 执行 价格 K F, 在 时 刻 t= 0 应 该 花费 多 少 钱 购 
买 该 期 权 . 

由 Black, Scholes 和 Merton 在 1973 年 引入 的 诺 贝 尔 获奖 模型 提供 了 一 种 使 
用 随机 微分 方程 确定 期 权 合理 价格 的 通用 方法 [46, 390]. 期 权 定价 和 金融 随机 微分 
的 进一步 背景 参见 [160, 346, 498, 566]. 

期 权 的 合理 价格 就 是 在 时 刻 t = 0 时 付 的 钱 能 准确 平衡 在 到 期 日 的 预期 盘 余 . 
我 们 将 考虑 最 简单 的 情况 : 一 个 无 分 红 股 票 的 欧式 看 涨 期 权 . 该 期 权 的 合理 价格 能 
在 Black-Scholes 模型 下 解析 确定 , 但 通过 Monte Carlo 方法 得 到 的 合理 价格 的 估 
计 是 一 个 有 益 的 起 始点 . 根据 Black-Scholes 模型 , 在 人 日 的 股票 价值 可 以 由 


2 
(T) ~ g% IEE T 
5 8 woof (+ 2 ) 365 +0Z 365 (6.64) 


模拟 得 到 , 其 中 r 是 无 风险 回报 利率 (通常 是 在 了- 1 日 到 期 的 美国 短期 国库 券 的 
回报 利率 ), o 是 股票 的 波动 率 (一 个 按 年 计算 的 log(S4+0713(0) 的 标准 差 的 估计 ). 
如 果 我 们 知道 在 T 日 的 股票 价格 等 于 SO, 那么 看 涨 期 权 的 合理 价格 就 是 


C = exp{—rT/365} max{0, S — K}, (6.65) 


HHARIME. 因为 SO 对 于 期 权 的 购买 者 是 未 知 的 , 在 t= 0 时 购买 的 合理 价 
格 就 是 折算 盈余 的 期 望 值 , 即 E{C}. 因此 , 在 t= 0 时 购买 的 合理 价格 的 Monte 
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Carlo 估计 是 


A Re 
C= = ea, (6.66) 


i=l 


其 中 Ci, i= 1,--- ,m, 是 从 (6.64) 和 (6.65) 中 使 用 标准 正 态 偏差 的 一 个 独立 同 分 布 
的 样本 21,… , Zn 模拟 得 到 的 . 
因为 这 个 例子 中 真实 的 合理 价格 E{C} 可 以 解析 计算 得 到 ,所 以 不 需要 应 用 
Monte Carlo 方法 . 然而 , 一 个 欧式 看 涨 期 权 的 特殊 样式 , 称 为 亚 氏 、 路 径 依赖 或 者 
平均 价格 期 权 , A ERA SE TEA OR. 这 样 的 期 权 对 能 源 和 
商品 的 消费 者 是 有 吸引 力 的 , 因为 随时 间 的 流逝 , 他 们 倾向 于 接受 平均 价格 . 因为 
求 平均 的 过 程 削 减 了 波动 率 , 亚 氏 期 权 也 倾向 于 比 标准 期 权 便宜 . 控制 变量 和 许多 
其 他 的 方差 缩减 方法 对 像 这 类 期 权 的 Monte Carlo 定价 在 [53] 中 有 研究 . 

为 了 模拟 亚 氏 看 涨 期 权 的 合理 价格 , 连续 T 次 应 用 (6.64) 进行 到 期 日 股票 值 
的 模拟 , 每 次 将 股票 价格 推进 一 天 并 且 记 录 下 那天 模拟 的 结束 价格 , 这 样 


一 02 (t) 
a(t+1) _ g(t) 7 一 02/2 of 7 
5 5 ef 365 + Vi) (6.67) 


其 中 {ZO} 为 标准 正 态 偏差 序列 , t = 0,… ,T 一 1. 当前 价格 为 SO 的 股票 的 亚 氏 
看 涨 期 权 在 T AMR NENA 


A = exp{—rT/365} max{0, 5 — K}, (6.68) 
其 中 = 中 S/T 且 SO, t=1, ,7, 是 代表 平均 时 刻 的 期 货 股票 价格 的 随机 


变量 . 在 t=0 时 购买 的 合理 价格 是 E{ 4}, 但 这 种 情况 下 没有 已 知 的 解析 解 . 记 某 
亚 氏 看 涨 期 权 合理 价格 的 标准 Monte Carlo 估计 为 


< ;,_1< 
jimc = A= noe (6.69) 


其 中 A, 像 上 面 描述 那样 独立 模拟 得 到 . 


如 果 (6.68) 中 的 5 被 贯穿 持 有 期 的 基本 股票 价格 的 几何 平均 所 代替 , 便 能 找 
到 E{4} 的 一 个 解析 解 [324]. 合理 价格 于 是 为 


2 ~~ 
0 = 5&(cy) ow {-7 (- + =) l = N. } — K®(cy — c2) exp{—rT'/365},(6.70) 
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其 中 


_1 lo; so es caT „È ST 142 
ao eK 730 2 1 095 aN) |? 


eT ET 1/2 
= (T095 2N : 


cg=1+1/N, 


© 是 标准 正 态 累积 分 布 函 数 , 且 N 是 求 平均 的 价格 的 个 数 . 另 一 方面 , 可 以 采用 上 
面 描述 的 同类 Monte Carlo 方法 并 用 几何 平均 估计 某 亚 氏 看 涨 期 权 的 合理 价格 , 记 
该 Monte Carlo 估计 为 Ouc. 

估计 Oc 构成 了 的 估计 的 一 个 很 好 的 控制 变量 . 令 ficv = fc+ 和 (Gc 一 0). 
因为 我 们 预料 到 亚 氏 期 权 的 两 种 合理 价格 (算术 和 几何 平均 价格 ) 是 高 度 相关 的 ， 
故 一 个 合理 的 初始 推测 是 取 入 = 一 1. 

考虑 具有 基于 持 有 期 算术 平均 价格 的 盈余 的 某 欧式 期 权 ， 假 设 基本 股票 的 当 
前 价格 SO = 100, 执行 价格 K = 102, 以 及 波动 率 o = 0.3. 假设 还 有 50 天 到 
到 期 日 , 这 种 到 期 日 价格 的 模拟 需要 (6.67) 的 50 次 迭代. 假设 无 风险 回报 利率 是 
r= 0.05. 那么 , 类 似 的 几何 平均 价格 期 权 的 合理 价格 为 1.82， 模 拟 表明 算术 平均 
价格 期 权 的 真实 合理 价格 粗略 是 u = 1.876. 采用 n = 100 000 次 模拟 , 我 们 可 以 用 
hmc 或 ficv 来 估计 u, 两 个 估计 给 出 的 结果 都 在 / 附近 . 但 重要 的 是 1 的 估计 的 
标准 误 . 我 们 重复 整个 Monte Carlo 估计 过 程 100 次 , RH Amc 和 ficv 的 100 个 
值 . âme 值 的 样本 标准 差 是 0.010 7, 而 jicv 值 的 样本 标准 差 是 0.000 295. 因此 , 控 
制 变量 方法 提供 的 估计 的 标准 误 要 小 36 倍 . 

最 后 , 考虑 利用 (6.60) 式 从 模拟 中 估计 A. 重复 如 上 的 同样 试验 , Amo 和 bwvc 
的 相关 系数 是 0.999 9. Â 的 均值 是 -1.021 7, 样本 标准 差 是 0.000 1. 利用 在 每 次 
模拟 中 得 到 的 和 来 产生 各 个 âmo, 得 到 100 个 fc 值 的 一 个 集合 , 其 标准 差 为 
0.000 168. 它 代表 了 在 标准 误 上 比 fimc 有 63 倍 的 改进 . o 


6.3.4 Rao-Blackwellization 


我 们 已 经 利用 从 f 中 随机 抽取 的 样本 Xi, Xn 考虑 了 u= EB{h(X)} A 
计 . 假设 每 个 Xi = (Xa, Xa) 且 条 件 期 望 BMX, jæi} 可 以 解析 求解 . 为 了 
fimc 的 一 个 替代 估计 , 我 们 可 以 利用 E{h(Xi)} = E{E{h(Xi)|Xiz}}， pests 
望 是 关于 Xa 的 分 布 求 取 的 . Rao-Blackwellized 估计 可 以 定义 为 


fino = 1 YOE) Xa}, 671) 


且 它 有 与 通常 的 Monte Carlo 估计 Ac 一 样 的 均值 . 注意 到 由 条 件 方差 公式 ， 


var{Axec} = Lvar{B{h(X Xs}} + Ef var(h(X,)|Xia}} > varfâns} (6.72) 
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成 立 . 因此 , fre 在 均 方 误差 方面 优 于 imo. 通常 称 此 条 件 化 过 程 为 Rao-Blackwell- 
ization, 因为 它 使 用 了 Rao-Blackwell 定理 , 该 定理 指出 我 们 可 以 通过 将 一 个 无 偏 估 
计 关 于 充分 统计 量 取 条 件 化 以 缩减 其 方差 [81]. 关于 对 Monte Carlo 方法 的 Rao- 
Blackwellization 的 进一步 研究 参见 [84, 191, 431, 459, 460]. 

例 6.10 (拒绝 抽样 的 Rao-Blackwellization) Rao-Blackwellize 拒绝 抽样 的 一 般 
方法 是 由 Casella 和 Robert 描述 的 [84]. 在 通常 的 拒绝 抽样 中 , 备 选 样本 Ya, Yur 
是 序 贯 生成 的 , 并 且 其 中 某 些 被 拒绝 . 均匀 随机 变量 U1,… ,Uw 提供 了 拒绝 决策 ， 
WR Ui > w*(¥i), 则 拒绝 ¥;, 其 中 w* (Yi) = f(Y;)/e(Yi). 拒绝 抽样 在 随机 次 数 M 
处 停止 , 这 时 接受 了 第 n 个 抽样 , 得 到 X1,… Xn 于 是 通常 的 Monte Carlo 估计 
u= E{h(X)} 可 重新 表示 为 


M 

a 1 

fimc = > SAM) uwd) (6.73) 
i=1 


它 提出 了 一 个 吸引 人 的 可 能 性 , 那 就 是 jvc 能 通过 使 用 所 有 的 备 选 Y; 抽样 (适当 
加 权 ) 而 不 只 用 接受 的 抽样 以 某 种 方式 得 到 改进 . 
(6.73) 式 的 Rao-Blackwellization 产生 估计 


1 M 
finn = = > AYJ(Y), (6.74) 
i=l 


其 中 ti(Y) 是 依照 


ti(Y)=E{lvgw (YM, Yi, Ym} 
=P; < w" (Y:)|M, Y1,- -- , Ym] (6.75) 


依赖 于 YY = (Yi, ,Ym) 和 M 的 随机 量 . 现在 ty(Y) = 1, 因为 最 后 的 备 选 抽样 
被 接受 了 . 对 之 前 的 备 选 抽样 , (6.75) 式 中 的 概率 可 以 通过 在 已 获得 的 样本 子 集 的 
排列 上 求 平均 找到 [84]. 我 们 得 到 


ww) E m w*(Y;) H [1 — w*(¥5)] 
2 a TT wY 


BeBjeB 
其 中 A 是 包含 n 一 2 个 元 素 的 {1,… ,i 一 1,i+1,… , M 一 1} 的 所 有 子 集 的 集合 ， 
而 B 是 包含 n 一 1 个 元 素 {1,…, M 一 1} 的 所 有 子 集 的 集合 . Casella 和 Robert 给 
出 了 一 个 计算 lY) 的 递归 公式 , 但 它 难以 执行 , 除非 n 相当 小 . 
注意 到 这 里 使 用 的 条 件 变 量 是 统计 充分 的 , 因为 U, Um 的 条 件 分 布 不 依 
HT f. âre 和 amc 都 是 无 偏 的 ; 因此 , Rao-Blackwell 定理 意味 着 i fire 比 âmo i 
更 小 的 方差 . 


t(Y¥) = 


(6.76) 
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问 题 
6.1 对 例 5.1 中 给 定 的 参数 值 , 考虑 例 中 找到 的 积分 (5.7) 式 . 找 一 条 简单 拒绝 抽样 包 络 , 当 


6.2 


6.3 


6.4 


用 它 来 生成 来 自 与 被 积 函数 成 比例 的 密度 的 抽样 时 , 将 产生 极 少数 拒绝 抽样. 

考虑 对 数目 标准 正 态 密度 的 自 适应 拒绝 抽样 使 用 的 分 段 指数 包 络 .对 于 基于 切线 的 包 
络 , 假设 你 被 限定 在 偶数 个 节点 te, ten 上 . 对 于 不 需要 切线 信息 的 包 络 , 假设 你 
被 限定 在 奇数 个 节点 0, 士 di,… tdn 上 . 下 面 的 问题 需要 使 用 类 似 第 2 章 中 的 方法 进 
行 最 优化 . 

(a) X} n= 1 2,3,4,5, 找 出 基于 切线 包 络 的 节点 的 最 优 布局 . 

(b) 对 n= 1,2,3,4,5, 找 出 不 需要 切线 包 络 的 节点 的 最 优 布局 . 

(c) 画 出 这 些 包 络 ; 也 画 出 两 种 包 络 的 拒绝 抽样 损耗 对 节点 数 的 图 . 评论 所 得 结果 . 

当 X 有 与 g(x) = exp{—|x[9/3} 成 比例 的 密度 时 , 考虑 找 出 o? = E{X?}. 

(a) 利用 带 标准 化 权重 的 重要 性 抽样 估计 o?. 

(b) Philippe 和 Robert 描述 了 一 种 替代 重要 性 权重 平均 化 的 方法 : 它 使 用 了 随机 节点 
的 Riemann 和 方法 [430, 431]. 当 抽 样 Xi,- Xn KA 了 时, E{h(X)} 的 一 个 估 
计 为 


E Xii — Xa Kw Xa), (6.77) 
i 
其 中 Xm < … < XIn] 是 X1,… Xn 的 有 序 样本 . 该 估计 比 简单 Monte Carlo 估 
计 收敛 更 快 . 当 f = cg 且 归 一 化 常数 c 未 知 时 , 则 


E Xue -XDXD Xt) 
i (6.78) 
X (Xien — Xt)q( Xa) 


估计 E{h(X)}, 注意 到 分 母 估计 了 1/c. 使 用 这 种 策略 估计 o°, 事后 把 它 应 用 到 (a) 

得 到 的 输出 中 . 
(c) 完成 一 次 重复 模拟 试验 来 比较 (a) 和 (b) 中 两 个 估计 的 表现 . 讨论 所 得 结果 . 
图 6.10 显示 了 1851 到 1962 年 间 每 年 的 煤矿 灾难 次 数 数据 , 可 以 从 本 书 的 网 站 上 找到 . 
这 些 数 据 最 早出 现在 [368] 中 并 在 [306] 中 得 到 修正 . 我 们 考虑 的 数据 的 表格 在 [79] 中 
给 出 . 对 这 些 数据 的 其 他 分 析 见 [378, 443]. 

每 年 的 事故 率 在 1900 年 左右 出 现下 降 , 因此 我 们 考虑 这 些 数据 的 一 个 拐点 模型 . 设 
在 1851 年 6 = 1, 其 后 依次 索引 每 年 , 则 在 1962 年 = 112. $ Xi 为 第 i 年 的 事故 数 ， 
其 中 X , Xo ~ ii.d. Poisson( 和 1) H Xe+1,… ,Xi2 ~ iid. Poisson(A2). 该 模型 有 
参数 9, Ai 和 do. 下 面 是 对 该 模型 Bayes 分 析 的 三 个 先 验 集 . 在 每 种 情况 , 考虑 从 先 验 
集中 抽样 作为 应 用 SIR 算法 模拟 模型 参数 后 验 的 第 一 步 . 首要 的 是 对 假设 的 拐点 日 期 9 
的 推断 . 


6.5 


6.6 


图 6.10 1851 到 1962 年 间 每 年 的 煤矿 灾难 次 数 


(a) 假设 9 在 {1,2,… ,122} 上 有 离散 均匀 先 验 分 布 , E Ailai ~ Gamma(3, ai) 及 
ai ~ Gamma(10, 10) X} i = 1,2 是 独立 的 . 利用 SIR 方法 , 估计 9 的 后 验 均 值 , 并 
给 出 @ 的 一 张 直方 图 和 一 个 置信 区 间 . 给 出 估计 A 和 和 2 的 类 似 信息 . 对 初始 SIR 
抽样 , 作 Ai 对 Ao 的 一 张 散 点 图 , 高 亮 显 示 在 SIR 的 第 二 阶段 中 再 次 抽 到 的 点 . 此 
外 , 汇报 所 得 初始 和 再 抽样 的 样本 量 、 唯 一 点 的 数量 和 再 抽样 中 的 最 高 观测 频率 , 以 
及 该 案例 中 重要 性 抽样 有 效 样本 量 的 一 种 度量 . 讨论 所 得 结果 . 

(b) 假设 à: = aà. 使 用 0 的 同样 的 离散 均匀 先 验 分 布 , A Aja ~ Gamma(3, a), 
a ~ Gamma(10,10), 以 及 loga ~ Unif(log 1/8, log 2). 给 出 (a) 中 列 出 的 同样 结 
R, 并 讨论 所 得 结果 . 

(c) SER Monte Carlo 方法 ( 见 第 7 章 ) 经 常 应 用 于 这 类 数据 的 分 析 中 ， 与 在 一 些 
这 样 的 分 析 中 使 用 的 非 正常 扩散 先 验 类 似 的 一 个 先 验 集合 是 ， 9 有 离散 均匀 先 验 ， 
Ailai ~ Gamma(3, ai) 及 a; ~ Unif(0, 100) X} i = 1,2 是 独立 的 . 给 出 (a) 中 列 出 
的 同样 结果 , 并 讨论 所 得 结果 , 包括 该 分 析 比 前 两 种 更 困难 的 原因 . 

证 明 以 下 结果 . 

(a) 如 果 hi 和 hs 是 m 个 随机 变量 Ui,- ,Um 的 函数 , 且 若 每 个 函数 对 每 个 自 变量 
是 单调 的 , 那么 


cov{ħ: (U1, : +- ,Um), ha(1 — Ui ,1— Um)} < 0. 


(b) & A(X) tih NENEN u, 并 令 jia(Y) 是 从 与 Xio Xn WARY, 
Yn 构造 而 得 .假设 两 个 估计 量 对 y 是 无 偏 的 且 是 负 相 关 的 .为 aX) 找 一 个 
均值 为 零 的 控制 变量 , 记 为 GZ， 对 于 它 ， 当 使 用 最 优 A 时 , 控制 变量 估计 ficv = 
M(X) + AZ 对 应 着 基于 fi 和 fie 的 对 偶 估 计 . 并 讨论 如 何 得 到 最 优 A. 

考虑 利用 来 自 Possion( 和 ) 模型 的 25 个 观测 点 检验 假设 Ho :入 = 2 Xf Ha: A> 2. HL 

械 地 应 用 中 心 极限 定理 会 得 出 当 Z > 1.645 时 拒绝 Ho, 其 中 Z= en 

(a) 使 用 5 种 Monte Carlo 方法 : 标准 、 对 侦 、 带 未 标准 化 和 标准 化 权重 的 重要 性 抽样 
以 及 像 在 例 6.8 中 那样 的 带 控制 变量 的 重要 性 抽样 ,估计 该 检验 的 大 小 ( 即 工 型 错 
BR). 对 每 种 估计 给 出 一 个 置信 区 间 . 讨论 每 种 方差 缩减 技术 的 相应 优点 ,并 将 重 
要 性 抽样 方法 与 其 他 每 种 进行 比较 . 对 于 重要 性 抽样 方法 ,使 用 均值 等 于 Ho 的 拒 
HABEAS Poisson 包 络 , Bl A = 2.465 3. 
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6.7 


6.8 


(b) 对 A e (2.2, 4], 用 同样 的 5 种 技术 画 出 该 检验 的 功效 曲线 . 给 出 每 种 情况 下 的 逐 点 
置信 区 间 . 讨论 每 种 技术 的 相应 优点 . 将 重要 性 抽样 方法 的 表现 与 它们 在 (a) 中 的 
表现 进行 比较 . 

考虑 某 基 本 股票 的 欧式 期 权 定价 , 其 中 当前 价格 SO = 50, 执行 价格 K = 52 及 波动 率 

o=0.5. 假设 还 有 30 天 到 到 期 日 , 且 无 风险 回报 利率 是 r= 0.05. 

(a) MARET SO? 时 ( 即 具 有 像 在 (6.65) 中 那样 盈余 的 一 支 标准 期 权 ), 确定 该 期 权 
的 合理 价格 是 2.10. 

(b) 考虑 具有 在 持 有 期 基于 算术 平均 股票 价格 的 盘 余 (E (6.68) 中 那样 ) 的 类 似 的 亚 
氏 期 权 (同样 的 SO, K, o, NA r). 使 用 简单 Monte Carlo 估计 该 期 权 的 合理 价 
Ht. 

(c) 使 用 例 6.9 中 描述 的 控制 变量 方法 改进 (b) 中 的 估计 . 

(d) 使 用 对 偶 方 法 来 估计 (b) 中 描述 的 期 权 的 合理 价格 . 

(e) 利用 模拟 和 /或 分 析 , 比较 (b), (c) 和 (da) 中 估计 的 抽样 分 布 . 

考虑 由 X ~ lognormal(0,1) 和 YY = 9 + 3log X + e 给 出 的 模型 , 其 中 e~ N(0,1). 我 

们 希望 估计 E{Y/X}. 比较 标准 Monte Carlo 估计 和 Rao-Blackwellized 估计 的 表现 . 


第 7 章 MCMC 方法 


当 某 目标 密度 函数 f 可 被 计算 但 不 易 抽 样 时 , 我 们 可 应 用 第 6 章 中 的 方法 来 
获取 一 个 近似 的 样本 ， 用 这 样 的 样本 的 主要 目的 是 估计 X ~ f(z) 的 某 一 函数 的 
期 望 . 本 章 将 介绍 的 马 氏 链 蒙 特 卡 罗 (MCMC) 方法 是 用 来 生成 近似 服从 f 分 布 的 
样本 , 但 更 准确 地 说 , 这 种 方法 可 用 于 产 成 样本 以 可 靠 地 估计 关于 X 的 函数 的 期 
望 . MCMC 方法 区 别 于 第 6 章 的 模拟 技术 在 于 其 迭代 的 特性 以 及 其 容易 适应 各 种 
广泛 且 困难 的 问题 . 作为 一 种 综合 的 方法 , MCMC 相对 于 第 5 章 中 方法 的 优势 在 
于 : 问题 维度 的 增加 通常 不 会 降低 其 收敛 速度 或 使 得 实现 更 复杂 . 

关于 离散 状态 空间 马 氏 链 理论 的 简要 回顾 可 见 1.7 节 ， 令 序列 Xt = 0,1, 
2 … 表示 一 马 氏 链 , 其 中 XO = (xP, xP), BRER EER. 
对 于 本 章 所 介绍 的 马 氏 链 类 型 ， 当 链 是 非 周期 不 可 约 时 , 则 XO 的 分 布 收敛 到 该 
链 的 极限 平稳 分 布 . MCMC 方法 的 抽样 策略 就 是 要 构造 一 个 非 周 期 不 可 约 的 马 氏 
链 使 得 其 平稳 分 布 等 于 我 们 的 目标 分 布 f. 对 于 足够 大 的 t 由 这 样 的 马 氏 链 得 到 
AX 具有 近似 的 边际 分 布 . MCMC 方法 的 一 个 非常 流行 的 应 用 是 帮助 简便 
Bayes 推断 , 这 时 f 就 是 参数 X 的 Bayes 后 验 分 布 . 关于 Bayes 推断 的 简略 回顾 
可 参见 1.5 节 . 

MCMC 方法 的 精 钥 在 于 构造 一 适当 的 链 . 这 方面 已 上 有 大 量 的 算法 . 其 中 困难 
之 处 是 如 何 决 定 由 马 氏 链 得 到 的 样本 以 及 由 这 些 样本 得 到 的 估计 量 与 目标 分 布 的 
近似 程度 . 这 个 问题 的 出 现 是 由 于 当 t 很 小 的 时 候 (注意 在 进行 计算 机 模拟 的 时 候 
t 总 是 有 限 的 ), XO 可 能 与 /相差 很 大 因为 XO 是 序列 相关 的 . 

MCMC 理论 及 其 应 用 是 当今 很 活跃 的 研究 方向 . 这 里 我 们 的 重点 在 于 介绍 一 
些 基本 的 MCMC 算法 , 这 些 算法 容易 实现 且 有 广泛 的 应 用 . 第 8 章 会 阐述 几 个 更 
复杂 的 MCMC 技术 . 关于 MCMC 方法 的 全 面 介绍 及 指南 可 参见 [64, 82, 91, 93, 
460, 537]. 


7.1 Metropolis-Hastings 算法 


Metropolis-Hastings 算法 [282, 391] 是 一 种 非常 通用 的 构造 马 氏 链 的 方法 . 这 
个 方法 从 t= 0 开始 , 取 XO = 2, 其 中 z(0 是 从 某 个 初始 分 布 g 中 随机 抽取 的 
样本 使 得 满足 f(z(%) > 0. Be XY =at, 下 面 的 算法 用 于 产生 KO, 

(1) 由 某 提案 分 布 9 (-|0) 产生 一 个 候选 值 X. 
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(2) 计算 Metropolis-Hastings 比率 RR (2, X*), 其 中 
_ F(v)g(ulv) 
R(u,v) = Fago) 
注意 R(x, X) 总 是 有 定义 的 , 因为 只 有 当 f(z) > 0 Bg (ex) > 0 时 才 
有 X*=2". 
(3) 根据 下 式 抽取 XO: 


x(t) 一 X*, 以 概率 min{R (xl, X*) ,1}， 
o \ 2, BM. 


(4) 增加 ,返回 第 1 步 . 

我 们 将 第 t PERETE XO = 2 的 过 程 . 

我 们 也 可 考虑 在 实现 类 似 Metropolis-Hastings 算法 这 样 的 MCMC 方法 时 选 
取 多 个 初始 点 来 检验 所 得 到 的 输出 是 否 一 致 . 这 样 的 过 程 也 可 看 作 是 与 最 优化 算法 
的 结合 . 当 提 案 分 布 对 称 , 即 g (x |r) = g (z*|z@) BY, 上 述 方法 就 是 Metropolis 
算法 [391]. 

显然 , 通过 Metropolis-Hastings 算法 构造 得 到 的 链 满足 马 氏 性 , 因为 XC) 仅 
RF XO, 而 这 样 的 链 是 否 是 非 周 期 不 可 约 的 则 取决 于 提案 分 布 的 选取 ; 使 用 者 
需要 自己 去 检验 是 否 满足 这 些 条 件 . 如 果 经 过 验证 说 明 其 是 非 周 期 不 可 约 的 , 那么 
由 Metropolis-Hastings 算法 得 到 的 链 具有 唯一 的 极限 平稳 分 布 . 这 个 结果 看 似 是 由 
(1.44) 式 所 决定 的 . 但 是 , 这 里 我 们 连续 和 离散 两 种 情况 都 要 考虑 . 然而 非 周 期 不 
可 约 仍然 是 Metropolis-Hastings 算法 收敛 的 充分 条 件 . 这 方面 的 理论 可 参见 [393， 
460]. 

为 了 求 得 一 个 非 周期 不 可 约 Metropolis-Hastings 链 的 平稳 分 布 , 假设 x® ~ 
f(a), 并 考虑 该 链 的 状态 空间 中 的 两 个 点 =: 和 oo, 满足 f(a) > 0 和 f(x) > 0. 
不 失 一 般 性 , 假设 这 两 个 点 满足 f(z2)g(z1|z2) > f(@1)g(w2]21). 

PERS XO = zl 和 X* = zz WA R(ziza) > 1, 所 以 XO) = z2. 由 此 
fa XO = zl AX) = wy 的 无 条 件 联合 密度 为 flzi)g(zslzi)。 因为 我 们 需要 
X = ma 初始 提出 X* = 21, 然后 以 概率 R(z1, ra) > XO) BPX", 所 以 
XO = za AX) = zl 的 无 条 件 联合 密度 为 
jc)g(zzlzl) 
(ca)g(zilzz) 
注意 到 (7.3) 等 于 f(z1)g(z2|z1), 也 就 是 XO = zl MXD =o, 的 联合 密度 . 
因此 , XO 和 XO) 的 联合 分 布 是 对 称 的 . 由 此 知 XO 和 x (OD 具有 相同 的 边 
际 分 布 . 于 是 XCD 的 边际 分 布 为 f, 且 f 必定 是 链 的 平稳 分 布 . 


(7.1) 


(7.2) 


Ff (x2)9(#1\x2) (7.3) 
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回想 (1.46) 式 , 我 们 可 通过 计算 由 Metropolis-Hastings 链 的 平稳 分 布 所 得 值 
的 平均 值 来 近似 一 个 随机 变量 的 函数 的 期 望 . 随 着 t 的 增 大 ， Metropolis-Hastings 
链 产 生 的 随机 变量 的 分 布 近似 等 于 该 链 的 平稳 分 布 ; 所 以 E{h( 久 )} ~ 2 = h(a). 
通过 这 种 方法 我 们 可 以 估计 一 些 非常 有 用 的 量 ， 其 中 包括 期 户 E(X), 方差 
E{[A(X) — BfP( 瑟 )]]2}， 以 及 尾部 概率 E{lfth(x)<ej}, 其 中 9 为 一 常数 , 当 4 为 
真 时 1(4} = 1 否则 为 零 . 利用 第 10 章 的 密度 估计 方法 , f 本 身 的 估计 也 可 得 到 . 
由 马 氏 链 的 极限 性 质 , 所 有 这 些 基于 样本 均值 的 估计 量 都 是 强 相合 的 . 注意 到 序列 
g, zw(,… ,可 能 有 一 些 点 在 状态 空间 中 取 值 相同 . 当 XO) 取 前 一 个 值 ro 而 
不 是 取 提案 值 z* 的 时 候 就 会 发 生 这 样 的 情况 . 由 于 这 些 抽样 点 出 现 的 频率 可 用 于 
修正 目标 密度 和 提案 密度 之 间 的 差异 , 所 以 在 链 中 保留 这 些 重 复 值 并 在 计算 样本 均 
值 时 包含 它们 是 非常 重要 的 . 在 大 多 数 应 用 中 , 我 们 都 不 太 可 能 确定 地 知道 生成 的 
链 是 否 已 经 收敛 到 平稳 分 布 , 因此 一 种 合理 的 做 法 是 在 计算 样本 均值 的 时 候 忽 略 掉 
一 些 初始 的 生成 值 . 

一 个 具有 某 些 特定 性 质 的 提案 分 布 可 以 从 很 大 程度 上 增强 Metropolis-Hastings 
算法 的 效果 . 一 个 好 的 提案 分 布 可 以 在 适当 的 迭代 次 数 内 生成 能 够 覆盖 平稳 分 布 支 
撑 的 候选 值 , 类 似 地 , 也 可 生成 不 被 过 度 频繁 地 接受 或 拒绝 的 候选 值 [93]. 这 两 点 都 
与 提案 分 布 的 延展 度 有 关 . 如 果 一 个 提案 分 布 相对 于 目标 分 布 来 说 过 于 分 散 , 那么 
候选 值 就 会 被 频繁 地 拒绝 , 因此 导致 链 需要 很 多 次 的 迭代 才能 足够 地 探究 清楚 目标 
分 布 的 支撑 空间 . 如 果 提案 分 布 过 于 集中 (比如 有 非常 小 的 方差), 则 链 在 很 多 次 的 
迭代 中 都 会 停留 在 目标 分 布 的 小 区 域内 , 而 其 他 区 域 则 不 能 够 被 充分 地 探究 . 所 以 ， 
具有 过 小 或 者 过 大 延展 度 的 提案 分 布 都 会 使 得 生成 的 链 需 要 大 量 的 迭代 次 数 才能 
够 获得 足够 的 抽样 点 覆盖 目标 分 布 的 支撑 . 我 们 将 在 7.3.1 节 中 进一步 探讨 与 之 相 
关 的 问题 . 

下 面 我 们 介绍 一 些 利用 不 同类 型 的 提案 分 布 所 得 到 的 Metropolis-Hastings 变 
形 . 

711 独立 链 


假设 选取 Metropolis-Hastings 算法 的 提案 分 布 为 某 个 固定 的 密度 函数 9 使 得 
满足 g(z*|z 中 ) = g(x). 由 提案 分 布 产生 一 个 独立 链 , 其 中 抽取 的 每 一 个 候选 值 与 
前 面 的 候选 值 相互 独立 . 在 这 种 情况 下 , Metropolis-Hastings 比率 为 

2 X*) g(x 
Ra!) = FRO) 
如 果 g(a) > 0, 则 只 要 f(x) > 0, 得 到 的 马 氏 链 就 是 非 周期 不 可 约 的 . 

注意 (7.4) 中 Metropolis-Hastings 比率 还 可 以 表示 成 重要 比率 ( 见 6.3.1 节 ), 其 
中 了 为 目标 分 布 ,g 为 包 络 分 布 : WR wt = f(X*)/g(X*) Bw = f(e)/g(a), 


(7.4) 
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则 Re, X*) = w/w. 这 种 表达 方式 表明 当 wO 远 远大 于 w* 的 值 时 , 马 氏 链 
将 在 很 长 一 段 时 期 停留 在 当前 值 上 . 因此 在 6.2.4 节 讨 论 的 选择 重要 抽样 包 络 的 准 
则 同样 可 适用 于 选择 提案 分 布 . 提案 分 布 9 应 与 目标 分 布 了 近似 , 并 在 尾部 包含 f. 
例 7.1 (Bayes 推断 ) “类似 Metropolis-Hastings 算法 的 MCMC 方法 是 Bayes HE 
断 的 常用 工具 , 其 中 似 然 方程 Z(8ly) 中 y 是 观测 数据 , 参数 9 的 先 验 分 布 为 p(9). 
Bayes 推断 基于 后 验 分 布 p(9|y) = cp(9)L(9|y), 其 中 c 是 未 知 常数 . 我 们 很 难 通 过 
计算 得 到 常数 c 以 及 后 验 分 布 的 其 他 性 质 , 因此 后 验 分 布 不 能 直接 用 于 推断 , 然而 ， 
如 果 我 们 可 以 从 马 氏 链 中 获得 一 个 样本 , 其 中 马 氏 链 的 平稳 分 布 是 目标 后 验 分 布 ， 
则 样本 可 以 用 来 估计 后 验 矩 , 尾部 概率 以 及 其 他 很 多 有 用 的 分 位 数 , 同时 还 包括 后 
验 密度 本 身 . 在 Bayes 推断 中 使 用 MCMC 方法 通常 可 以 很 容易 地 生成 这 样 一 个 样 
本 . 


在 独立 链 中 , 一 种 非常 简单 的 做 法 就 是 用 先 验 分 布 作 为 提案 分 布 . 以 Metropolis- 
Hastings 的 符号 记 ， f(0) = p(0ly), 9(6") = p(0"). 易 得 ， 
L(8"\y) 
L0” ly) 
换言之 , 我 们 用 先 验 分 布 作为 提案 分 布 , Metropolis-Hastings 比率 等 于 似 然 比 . 由 定 
X, 先 验 分 布 的 支撑 覆盖 目标 后 验 分 布 的 支撑 , 因此 独立 链 的 平稳 分 布 即 为 我 们 希 
望 得 到 的 后 验 分 布 . 虽然 还 有 很 多 特殊 的 MCMC a cain 
型 的 后 验 分 布 样本 , 但 前 面 提 到 的 可 能 是 最 简单 的 一 种 生成 方法 . 


例 7.2 (估计 一 个 混合 参数 ) ”假设 观测 数据 y1,yo,… ,yioo AERA 
Ai 


R(A, 6°) = 


(7.5) 


6N(7,0.52) + (1 — 6)N(10, 0.52). (7.6) 


图 7.1 为 观测 数据 的 直方 图 , 其 中 观测 数据 可 从 本 书 的 网 站 上 获得 . 混合 密度 在 实 
际 应 用 中 普遍 存在 , 此 时 数据 可 以 来 自 多 个 总 体 . 假设 5 的 先 验 分 布 为 Unif(0,1), 我 
们 可 以 利用 MCMC 技术 构造 一 个 平稳 分 布 等 于 5 的 后 验 密度 的 链 . 数据 由 5 = 0.7 
的 分 布 生成 , 因此 后 验 密度 应 集中 在 这 一 区 域 . 

在 本 例 中 , 我 们 尝试 使 用 两 个 不 同 的 独立 链 .首先 用 密度 Beta(1, 1) 作为 提案 
密度 , 之 后 我 们 选用 密度 Beta(2, 10). 第 一 种 提案 分 布 等 价 于 Unif(0, 1) 分 布 , 而 第 
二 种 提案 分 布 右 偏 , 其 均值 近似 等 于 0.167. 在 第 二 种 情况 中 , 0.7 附近 的 5 值 不 可 
能 由 提案 分 布 产生 . 

图 7.2 是 两 条 链 的 10 000 次 迭代 的 样本 路 径 . 样本 路 径 是 迭代 次 数 t 对 应 链 
的 实现 6 的 图 . 这 种 图 可 用 于 研究 马 氏 链 的 性 质 并 将 在 7.3.1 节 作 进一步 的 讨论 . 
7.2 中 上 面 的 长 方形 对 应 的 是 由 提案 密度 Beta(1,1) 生成 的 马 氏 链 . 上 方 的 图 形 
表明 马 氏 链 很 快 离开 了 起 始 值 , 并 且 似 乎 很 容易 从 以 5 的 后 验 值 为 支撑 的 参数 空 
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间 的 各 个 部 分 抽取 值 . 这 种 表现 称 为 混合 性 良好 . 下 面 的 长 方形 对 应 的 是 由 提案 密 
BE Beta(2, 10) 生成 的 马 氏 链 . 这 一 生成 链 慢 慢 地 离开 起 始 值 , 在 寻找 后 验 支 撑 区 域 
方面 表现 很 差 , ( 即 , 混合 性 差 )， 由 于 标 移 明显 , 此 链 显 然 不 收敛 于 其 平稳 分 布 . 当 
然 由 于 后 验 分 布 仍 是 此 链 的 极限 分 布 , 长 期 运行 此 链 原则 上 是 可 以 估计 5 后 验 分 
布 的 . 然而 图 7.2 中 下 方 的 链 的 表现 难以 让 人 信服 : 此 链 是 非 平稳 的 , 只 能 得 到 少 
SULA 6 值 , 并 且 起 始 值 看 上 去 没有 被 淘汰 掉 . 对 类 似 于 这 种 链 的 图 形 , MCMC 
的 使 用 者 应 该 需要 重新 考虑 提案 密度 以 及 实现 MCMC 方法 的 其 他 方面 . 
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图 7.1 例 7.2 中 由 混合 分 布 (7.6) 模拟 生成 的 100 个 观测 值 的 直方 图 
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FA 7.2 例 7.2 中 提案 密度 为 Beta(1,1) (上 ) 和 Beta(2, 10) (F) 的 独立 马 氏 链 产生 的 5 的 样 
本 路 径 


7.3 是 马 氏 链 生成 值 的 直方 图 , 为 减少 起 始 值 的 影响 省 略 了 其 前 200 次 迭代 
值 ( 见 7.3.1 节 第 5 部 分 关于 预 烧 期 的 讨论 ). 图 7.3 中 上 下 两 个 长 方形 图 分 别 对 应 
提案 分 布 Beta(1,1) 和 Beta(2, 10). 由 图 可 以 看 出 , 提案 密度 为 Beta(1,1) 的 马 氏 链 
生成 的 6 的 样本 , 其 均值 与 真 值 5 = 0.7 (及 后 验 均值 ) 非常 近似 . 另 一 方面 , 提案 
密度 为 Beta(2, 10) 的 马 氏 链 在 前 10 000 次 选 代 中 不 能 对 5 后 验 或 真 值 产生 可 靠 的 
估计 -. 口 
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图 7.3 il 7.2 中 提案 密度 为 Beta(1,1) (上 ) 和 Beta(2, 10) (F) 的 独立 马 氏 链 由 201~10 000 
次 和 迭代 所 得 到 的 的 直方 图 


7.1.2 ”随机 游 动 链 


随机 游 动 链 是 通过 简单 变化 Metropolis-Hastings 算法 得 到 的 另 一 种 马 氏 链 . 令 
X* 通过 抽取 e ~ h(e) ER, 其 中 h 为 密度 函数 , 则 X* = z( +e. 由 此 我 们 得 
到 一 个 随机 游 动 链 . 在 这 种 情况 中 , g (at |e) =h(z* — a). 对 于 的 一 般 选 择 
包括 以 圆 点 为 球 心 的 球面 上 的 均匀 分 布 , 标准 正 态 分 布 以 及 尺度 变化 后 的 学 生 t 分 
布 . 如 果 f 的 支撑 区 域 是 连通 的 且 h 在 0 的 邻 域内 为 正 , 则 生成 链 是 非 周期 不 可 
约 的 [460]. 

图 7.4 表明 随机 游 动 链 在 二 维 问题 中 如 何 运 作 . 此 图 表示 出 了 二 维 目 标 函数 的 
等 高 线 (点 状 线 ), 同时 给 出 了 随机 游 动 MCMC 过 程 的 前 几 步 . 样本 路 径 用 顺序 连 


图 7.4 为 抽取 一 个 二 维 目标 分 布点 状 等 高 线 ), 利用 所 提出 的 增 量 抽取 自 以 当 前 值 为 中 心 的 
圆 盘 上 的 均匀 分 布 所 得 的 假想 的 随机 游 动 链 . 见 文中 的 详细 描述 
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接 链 中 的 值 (点 ) 的 实 线 表示 . 链 的 起 点 为 1O. 第 二 个 被 接受 的 候选 值 生成 0, 
以 z(0 Me?) 为 圆心 的 圆 作为 提案 密度 , 其 中 h 是 以 原点 为 圆心 的 圆 上 的 均匀 
分 布 . 在 随机 游 动 链 中 , 第 上 + 1 次 迄 代 的 提案 密度 是 以 sO 为 圆心 的 圆 上 的 均匀 
分 布 . 其 中 有 一 些 候选 值 被 拒绝 ， 例 如 , 第 13 个 候选 值 , 记 为 o 没 被 接受 . 于 是 
28) = 202), 注意 链 如 何 沿 目标 分 布 的 等 高 线 频繁 向 上 移动 , 同时 允许 少数 情况 
向 下 移动 . 从 z45) 到 z09) 的 移动 就 是 链 向 下 移动 的 例子 . 
BI 7.3 (估计 混合 参数 , 例 7.2 续 ) ”作为 例 7.2 的 继续 , 考虑 使 用 随机 游 动 链 来 
获得 5 的 后 验 分 布 . 假设 我 们 通过 给 当前 值 5 增加 一 个 Unif(-a,a) 上 的 随机 增 
量 来 生成 提案 值 . 明显 地 , 在 链 增 长 的 过 程 中 生成 的 提案 值 有 可 能 在 区 间 [0,1] 外 . 
一 种 粗糙 的 方法 就 是 当 5 g [0, 1] 时 , 后 验 值 取 0, 这 样 可 以 避免 取 到 这 些 点 . 一 个 
常用 的 更 好 的 方法 是 重新 参数 化 . 令 U = logit{5} = log {745}. 现在 我 们 可 以 关 
F U 运行 一 个 随机 游 动 链 , 通过 给 uO 增加 一 个 Unit (—b, b) 上 的 随机 增 量 生成 提 
案值 . 
有 两 种 方法 看 待 重新 参数 化 . 首先 , 我 们 在 5- 空间 运行 链 . 在 这 种 情况 下 , 提 
案 密度 gluh) 要 通过 变换 成 为 5- 空间 中 的 提案 分 布 , 这 里 我 们 考虑 Jacobi 行列 
A. 于 是 提案 值 5* 的 Metropolis-Hastings 比率 为 
£(5" )g (logit {5} llogit{6"})|7(6)| 
£(5) g(logit{ 5" } logit {5 })|J(6*)| ” 
其 中 , 如 |7(6 四 )| BAF 6 到 u 变换 的 Jacobi (行列 式 ) 的 绝对 值 , 在 6 的 估 值 . 
第 二 种 方法 是 在 u- 空间 运行 链 . 在 这 种 情况 下 , 6 的 目标 密度 要 通过 变换 成 为 的 
密度 , 其 中 5 = logit {U} = eet. 对 于 U* = u*, 有 Metropolis-Hasting 比率 


f(logit™*{u*})|J(u")|g(u |u*) 

fllogit™ {uO PI (uO) g(urju®)” 
由 于 [J (u")| = 1YI7(6*)|, 我 们 可 以 看 出 两 种 观点 得 到 的 链 是 等 价 的 . 

在 重新 参数 化 空间 由 均匀 增 量 生成 随机 游 动 链 与 在 原始 空间 由 均匀 增 量 生成 

的 链 相 比 , 有 很 多 不 同 的 性 质 . 重新 参数 化 可 用 于 提高 MCMC 方法 的 表现 , 对 此 
在 7.3.1 节 第 4 部 分 中 将 作 进 一 步 的 讨论 . 
图 7.5 是 来 自 u- 空间 的 两 条 随机 游 动 链 对 于 5 的 样本 路 径 。 图 上 方 的 长 方 
形 对 应 通过 抽取 e ~ Unif(—1,1) 生成 的 链 , $ U* = ul +e, 并 利用 (7.8) RH 
算 Metropolis-Hastings 比率 . 上 方 的 图 显示 此 马 氏 链 快速 离开 起 始 值 并 且 似 乎 很 容 
易 从 以 5 的 后 验 值 为 支撑 的 参数 空间 的 各 个 部 分 抽取 值 . 下 方 的 长 方形 对 应 使 用 
e ~ Unif(—0.01, 0.01) 的 链 , 其 混合 性 非常 地 差 . 这 时 得 到 的 链 缓慢 离开 起 始 值 并 且 
经 过 一 次 选 代 在 5- 空间 中 移动 的 步 幅 非常 小 . 


(7.7) 


(7.8) 
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图 7.5 例 7.3 中 运行 于 v 空间 的 两 条 随机 游 动 链 对 于 5 的 样本 路 径 , 5 = 1 (上 图 ) 和 
b =0.01 (下 图 ) 


7.1.3” 击 跑 算 法 


如 前 所 述 , 提案 分 布 不 随时 间 t 的 增加 而 改变 , 在 此 意义 下 Metropolis-Hasting 
算法 是 时 间 齐 次 的 ， 而 我 们 仍 有 可 能 构造 依赖 随时 间 变 化 的 提案 分 布 gH (Je) 
的 MCMC 方法 . 这 些 方法 可 能 非常 有 效 , 但 是 由 于 时 间 非 齐 性 , 其 收敛 性 质 通 常 
更 难 确定 [460]. 

一 种 类 似 于 随机 游 动 链 的 方法 称 为 击 跑 算法 [90]. 在 这 种 方法 中 , 从 zG 出 发 
的 提案 移动 分 两 步 产 生 : 选择 一 个 方向 移动 , 然后 选择 在 此 方向 上 移动 的 距离 . 初 
始 化 cO, BEM t= 0 开始 按 如 下 步骤 生成 . 

(1) 抽取 一 个 随机 方向 p ~ hlo), 其 中 为 定义 在 单位 p- 球面 的 密度 . 

(2) 寻找 所 有 使 得 sO + Ap 为 X 的 状态 空间 的 实数 和 的 集合 . 记 这 一 标记 
长 度 的 集合 为 AV. 

(3) 抽取 一 个 随机 标记 长 度 AM| (x, pO) re of AM|2, pl), 其 中 密度 
gË (lx, p) = g (s + rp) 定义 在 AM 上. MRF AO 的 提案 分 布 
一 次 迭代 与 下 一 次 迭代 有 可 能 不 同 . 

(4) SFR X* = 2 +\%p, 计算 Metropolis-Hastings 比率 

A FX gl (a 
R(z x )= So 
(5) 设 
xe) 一 { X*, 以 概率 min {R (2, X*),1}, 
2, 否则 . 
(6) 增加 t, 返回 第 一 步 . 
上 述 算法 是 几 种 常见 击 跑 算法 变化 而 来 的 [90]. 
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方向 分 布 h 常 采 用 单位 球面 的 均匀 分 布 . 在 P 维 情况 下 , 通过 抽样 一 个 p- 维 
标准 正 态 变量 Y ~ N(0, 并 且 作 变 换 p = Y/VYTY, 随机 变量 可 以 从 均匀 分 布 
抽取 . 

我 们 将 这 种 方法 的 表现 与 其 他 简单 MCMC 方法 作 了 比较 [89]. 注意 到 当 X 
的 状态 空间 非常 受 限 [26], 且 其 他 方法 难以 有 效 寻 找 所 有 空间 的 区 域 时 , 用 击 跑 算 
法 有 其 特殊 的 优势 . 

h 的 选择 对 于 算法 的 表现 以 及 收敛 的 速度 有 很 大 地 影响 , 最 好 的 选择 常 依赖 了 
的 形状 及 状态 空间 的 几何 性 质 (包括 对 X 的 坐标 的 限制 和 选择 的 单位 ) [322]. 


7.1.4 Langevin Metropolis-Hastings 算法 
一 个 带 漂移 的 随机 游 动 可 由 如 下 的 提案 值 来 生成 
Xt =2 4d + Gel, (7.9) 


其 中 


2 
0 = (F) GLO a (7.10) 


并 且 et 是 p 维 标准 正 态 随机 变量 .标量 o 是 调节 参数 , 其 值 由 使 用 者 选择 以 控 
制 提案 步 幅 的 大 小 . 标准 的 Metropolis-Hastings 比率 用 于 决定 是 否 接受 提案 值 ， 其 
中 提案 密度 gzz) x exp{—ghr(a* — a — d)T(a* — 2 — a}. 

此 方法 的 提案 分 布 受 一 个 随机 微分 方程 的 启发 , 此 方程 有 平稳 分 布 [248, 432] 
yj 并 产生 一 个 扩散 (E, 一 个 连续 时 间 随 机 过 程 )， 为 保证 这 里 给 出 的 离散 时 间 马 
氏 链 所 得 到 的 离散 化 过 程 有 正确 的 平稳 分 布 , Besag 详细 地 盖 述 了 各 种 Metropolis- 
Hastings 接受 策略 [31]. 

了 解 目标 的 变化 率 并 不 像 看 上 去 那样 困难 . 在 f 中 任何 未 知 的 增加 的 常数 项 
在 取 导 数 后 就 消失 了 . 当 精 确 的 导数 难以 获得 时 , 还 可 以 用 其 数值 近似 来 代替 . 

与 随机 游 动 不 同 , 此 算法 引入 的 漂移 倾向 于 移 向 目标 分 布 形式 的 提案 值 . 一 
般 的 Metropolis-Hastings 算法 (包括 随机 游 动 链 和 独立 链 ) 通常 采用 不 依赖 于 f 
形状 的 提案 值 , 因此 更 容易 实施 , 但 有 时 趋 于 平稳 或 者 充分 寻找 f 的 支撑 区 域 的 
速度 很 慢 ， 当 一 般 的 算法 表现 很 差 时 , 我 们 经 常 采 用 针对 问题 特定 的 Metropolis- 
Hastings 算法 , 并 使 用 被 认为 可 以 研究 目标 性 质 而 特殊 定制 的 提案 分 布 . Langevin 
Metropolis-Hastings 算法 也 给 出 了 依赖 于 f 形状 的 提案 分 布 , 而 自 目 标 一 般 通过 使 
用 变化 率 就 可 以 完成 . 这 些 方法 可 以 更 好 地 研究 目标 分 布 并 且 具 有 更 快速 的 收敛 . 

在 一 些 应 用 中 , 由 (7.10) 式 给 出 的 更 新 的 提案 值 产生 的 马 氏 链 在 合理 的 运行 长 
度 之 内 不 收敛 , 并 且 不 能 研究 多 峰 的 f. Stramer 和 Tweedie [523] 用 不 同 的 漂移 和 
尺度 项 在 某 种 程度 上 推广 了 (7.10) 式 , 提高 了 算法 的 表现 . 对 Langevin Metropolis- 
Hastings 算法 的 进一步 研究 在 [464, 522, 523) 给 出 . 
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7.1.5 Multiple-try Metropolis-Hastings 算法 


如 果 一 个 Metropolis-Hastings 算法 在 某 个 问题 中 未 能 成 功 ， 其 原因 可 能 是 链 
的 收敛 速度 慢 或 者 长 时 间 停 留 在 f 的 局 部 峰之 中 ,为 克服 上 述 困难 , 可 以 用 扩展 
可 能 提案 值 的 区 域 为 代价 , 其 中 提案 值 由 9(.|z@) 给 出 . 然而 这 种 方法 常常 使 得 
Metropolis-Hastings 比率 非常 小 , 造成 混合 性 差 . 为 有 效 扩展 提案 区 域 , 提高 算法 表 
现 , 同时 不 妨碍 混合 性 [359], Liu, Liang 和 Wong 提出 另外 一 种 方法 , 称 为 Muttiple- 
try Metropolis-Hastings 抽样 . 

这 种 方法 通过 生成 大 量 侯 选 值 以 加 强 在 sO 附近 f 的 研究 . 从 这 些 提案 值 中 
选择 一 个 能 够 确保 此 链 保持 正确 的 极限 平稳 分 布 . 我 们 将 使 用 提案 分 布 9, 以 及 可 
选择 的 非 负 加 权 XMz(9,z*)， 其 中 对 称 函 数 A 在 后 面 有 进一步 的 讨论 . 为 确保 正 
确 的 极限 平稳 分 布 , 必须 要 求 gæt) > 0 MARY g(zt0lz*) > 0, HARE 
g(z*lzt) > 0 WW Xzt,z*) > 0. 

id oO 为 起 始 值 , 并 且 定 义 


w(u,v) = f(v)g(ulv)A(u, v). (7.11) 


MF ¢=0,1,---, 算法 步骤 如 下 : 

(1) 由 g(lz(9) 抽取 独立 同 分 布 的 上 个 提案 值 Xi,… XE 

(2) 随机 地 在 提案 值 集合 中 以 正比 于 wat, XI) j=l ,k 的 概率 选择 一 个 
提案 值 X;; 

(3) 给 定 X; = at, 由 g(-|z}) 抽取 独立 同 分 布 的 上 一 1 个 随机 变量 XY*,… ， 
Xe eX = 2; 

(4) 计算 广义 Metropolis-Hastings 比率 


k k 
Ry = > wl”, X;)/ > w(X5, X"); (7.12) 
二 


i=1 
(5) + 
) _ Xj, 以 概率 min{R,,1}, 

-{ 20, FN; i (7.13) 

(6) 增加 t, 返回 第 1 步 . 

我 们 可 以 直接 证 明 此 算法 产生 的 马 氏 链 可 逆 , 其 极限 平稳 分 布 等 于 f. 这 种 方 
法 的 效率 依赖 于 大 f 的 形状 , 以 及 g 相对 f 的 延展 度 . 实际 应 用 中 , ERER 
可 从 很 多 的 提案 值 中 选择 一 个 能 够 使 得 链 之 间 有 较 小 的 相关 性 .这样 做 能 够 得 到 
更 好 的 混合 性 , 因为 在 某 种 意义 下 较 大 的 步 幅 可 以 找到 其 他 的 局 部 峰 或 者 可 以 加 快 
在 某 个 有 利 的 方向 上 的 移动 , 而 我 们 不 能 通过 其 他 的 方式 实现 这 样 的 步 幅 . 
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加 权 函 数 和 可 以 用 来 进一步 支持 某 种 类 型 的 提案 . 一 个 最 简单 的 选择 是 
Ne, a) = 1. 一 种 “方向 有 偏方 法 , 其 中 Xz@,z) = {lg(elz@)+g(e0lz/ 
2}-! 在 [178] 中 给 出 . 另外 一 种 有 趣 的 选择 是 Xz@,z*) = [9(x* |x) g(a |ar*)]-*, 
其 定义 在 g(z*lz() > 0 的 区 域 . 当 我 们 试图 利用 9 以 及 重要 抽样 包 络 从 f 中 抽样 
时 , 如 果 a = 1, WA wah, a) 对 应 分 配给 z* 的 重要 性 加 权 为 flz*)/g(z*|zO) 
( 见 6.3.1 节 )， 


7.2 Gibbs 抽样 


目前 我 们 处 理 过 的 入 很 少 涉及 其 维 数 . Gibbs 抽样 就 是 一 种 专门 处 理 多 维 
目标 分 布 的 工具 . 我 们 的 目标 是 构造 一 条 马 氏 链 其 平稳 分 布 (或 者 某 个 边际 分 布 ) 
等 于 目标 分 布 f。，Gibbs 抽样 通过 由 f 的 边际 分 布 序 贯 抽样 来 达到 上 述 目标 , 其 中 
这 些 边际 分 布 的 显 式 表 达 式 经 常 是 可 以 得 到 的 . 


7.2.1 基本 Gibbs 抽样 


回忆 X = (Xn Xp)", 并 且 记 Xai = (Xi, ,Xi_1,Xit1,… ,Xp)T. 假设 
XiX i = x-i 的 一 元 条 件 密度 , 记 为 f(zilz-i, 很 容易 抽样 获得 , 其 中 i = 1,… ,p. 
则 从 sO 开始 , 对 于 t KER, 一 个 一 般 的 Gibss 抽样 过 程 描述 如 下 : 

(1) 选择 一 个 z( 的 元 素 的 排序 ; 

(2) 对 每 个 i 依照 上 述 选 择 的 排序 , 抽取 X ~ f(X); 

(3) 当 第 (2) 步 依 选择 的 排序 对 X 的 每 一 元 素 都 已 经 完成 时 , > XD = x", 

对 X 的 所 有 元 素 完 成 第 (2) 步 称 为 一 个 循环 . 几 种 改进 和 推广 的 方法 将 在 
7.2.2 一 7.2.6 节 中 讨论 . 很 重要 的 一 点 是 , 标准 的 实际 应 用 中 对 X 的 每 一 个 元 素 都 
采用 最 新 值 而 不 是 在 循环 中 以 XO = z(t) 为 条 件 . 例如 , 当 p= 2 时 , 一 次 循环 将 
生成 XE aP ~ flh) 然后 生成 XSF? OY ~ Faa|af*?). 

很 明显 由 Gibbs 抽样 生成 的 链 是 马 氏 链 ， 在 相当 温和 的 条 件 下 ，Geman 和 
Geman [197] 证 明 Gibbs 抽样 所 得 链 的 平稳 分 布 为 f. 同时 还 证 明 x 的 极限 边 
际 分 布 等 于 目标 分 布 沿 第 i 个 坐标 求 得 的 一 元 边际 分 布 . 同 Metropolis-Hasting 算 
法 一 样 , 我 们 能 够 使 用 链 的 实现 值 去 估计 X 函数 的 期 望 . 

我 们 可 以 直接 将 Gibbs 抽样 看 作 Metropolis-Hasting 算法 的 特殊 例子 .每 次 
Gibbs 循环 由 p 个 Metropolis-Hasting 步 构成 . 为 看 到 这 一 点 , 注意 在 循环 中 给 定 


aypa). FE B i 个 一 元 变量 Gibbs 更 新 数值 可 以 看 作 Metropolis- 
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Hasting 算法 中 抽取 X*|z( ~ gi(-|z 中 ) 的 一 步 , 其 中 


sino) 二 PEG, WR x7, = 2%, 
neS { 0， ”否则 . 

易 证 此 时 Metropolis-Hastings 比率 等 于 1, 这 意味 着 XO 总 是 等 于 X* 而 从 不 
保留 以 前 的 值 s. 

当 X 的 维 数 变化 时 不 能 用 Gibbs 抽样 . 这 种 情况 下 构造 一 个 适当 的 有 正确 
稳 分 布 的 马 氏 链 的 方法 , 可 参见 8.2 节 . 
例 7.4 (河流 生态 监控 ) ” 称 为 底 栖 无 背 椎 动物 的 河流 昆虫 在 监控 河流 生态 中 是 一 
个 有 效 的 指标 , 这 是 由 于 其 相对 平稳 的 基底 栖息 地 被 污染 的 程度 是 一 个 常数 并 且 由 
于 个 体 数目 很 多 可 以 很 容易 抽样 . 假设 在 河流 沿线 很 多 地 点 可 采集 昆虫 , 并 基于 生 
态 学 上 重要 性 的 标准 将 昆虫 分 成 几 类 . 令 Yi, Yo 为 某 个 特定 的 地 点 内 c 类 不 同 
昆虫 中 , 每 类 昆虫 的 个 数 . 

一 只 昆虫 被 分 到 每 一 类 的 概率 随地 点 不 同 而 变化 , 收集 到 昆虫 的 总 数 也 随地 点 
的 不 同 而 变化 . 对 给 定 的 地 点 , $ P, Po 为 不 同类 昆虫 的 概率 , IFS N 为 收 
集 到 的 昆虫 的 总 数 . 进一步 假设 P+, Pe 依赖 于 一 个 有 关 地 点 特性 的 集合 , 此 性 
质 可 由 参数 a1,… ,ac 分 别 概括 . 设 N 依赖 于 一 个 特定 地 点 参数 入 . 
假设 有 两 个 备 选 统计 量 ，T(Yi，,… Yo) 和 T2(Yi，… Yo) 可 用 来 监控 河流 中 破 
坏 环境 的 因素 . WRT, 或 Te ARLES AE, 则 报警 启动 . 为 比较 两 个 统计 量 
在 同一 河流 中 的 不 同 地 点 或 是 不 同类 型 河流 中 的 表现 , 我 们 设计 一 个 Monte Carol 
模拟 试验 ,试验 选择 一 组 参数 集合 (和, a1，… ,ac), 这 些 参数 集合 被 认为 包含 了 抽 
样 的 范围 以 及 可 能 被 监测 的 地 点 和 河流 的 特性 .每 一 个 参数 集合 对 应 一 个 在 模拟 
地 点 的 假想 抽样 . 

令 c= 3. 对 给 定 的 模拟 地 点 , 我 们 可 以 建立 模型 : 


(Y1, Ya, Y3)|(N = n, Pi = pi, P2 = p2, Ps = p3) ~ Multinomial(n; p1, p2, p3), 
(Pi, P2, P3) ~ Dirichlet(ai, a2, @3), 
N ~ Poisson(A), 


其 中 N 由 于 依 地 点 而 变化 所 以 看 作 是 随机 的 . 该 模型 要 求 Yi + Y + Ys = N 以 及 
Py + Po + Ps = 1 所 以 过 于 确定 化 . 因此 , 可 以 将 模型 写成 X = (Y1, Yo, Pi, Pe, N), 
其 他 的 变量 可 通过 分 析 X 的 值 来 决定 . Cassella 和 George X BAL SNARE H T 
相关 模型 [82]. 河流 生态 数据 的 更 复杂 的 模型 在 [308] 中 给 出 . 

为 完成 模拟 试验 , 需要 从 (Yi, Yo, Ys) 的 边际 分 布 抽样 , 使 得 可 以 比较 统计 量 Ti 
和 T 在 当前 水 流 类 型 的 模拟 地 点 中 的 表现 . 对 给 出 的 模拟 地 点 , 重复 这 一 过 程 , 得 
出 关于 n AT, 的 结论 . 


(7.14) 
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给 定 参数 A, on, az 和 as, 我 们 不 可 能 得 到 (Y1, Yo, Yo) 边际 分 布 的 显 式 表达 
式 . 然而 , 我 们 可 以 用 Gibbs 抽样 模拟 此 分 布 . 抽样 方法 简单 概括 为 
(Y1, Y2, Y3) |: ~ Multinomial(n; pı, p2, p3), 
(Pi, Pa, P3) |- ~ Dirichlet(y: + a1, y2 + a2,n — y1 — y2 + a3), (7.15) 
N ~ 41 — yp |: ~ Poisson(A(1 — pı — p2)), 
其 中 |. 表示 分 布 以 变量 集合 {N, Y, Yo, Ys, Pi, Pa, Ps} 中 除 分 布 本 身 变 量 外 的 其 余 
变量 为 条 件 . 问题 7.4 要 求 得 到 这 些 分 布 . 


直观 上 , (7.15) 式 似乎 与 Gibbs 抽样 中 的 一 元 抽样 策略 不 甚 相近 . 我 们 不 难 证 
BA (7.15) 等 价 于 如 下 基于 X 元 素 的 一 元 条 件 分 布 的 抽样 方法 : 


(t) 
yf). ~ Bin | n® 一 yw, Pi i 
1 


- py) 
1 p 
y+ |. ~ Bin | n@ 一 y?, 2 A 
2 1 i0 po 
1 
(t+1) 
P, 
1 al ~ Beta (vi? +ay,n 一 yl 一 多 十 as) Fi 
1-p, 
2 
pe) 六 


.~ Beta (us? taz n yP — yf) + as) ， 


1 一 2 
及 

NED — yË? — yf]. ~ Poisson (a(1 — pf? - pf?)). 
在 下 一 节 中 我 们 将 看 到 实际 上 我 们 不 需要 确定 如 上 所 述 的 专门 依赖 于 一 元 条 件 分 
布 的 详细 方案 , 而 且 也 不 建议 在 获得 一 些 元 素 的 新 的 观测 值 后 继续 在 整个 循环 内 以 
XO 的 元 素 为 条 件 . 

“Gibbs 抽样 ”实际 上 是 大 量 适 应 性 非常 高 的 算法 的 统一 名 称 . 在 接 下 来 的 几 

个 子 节 中 , 我 们 将 描述 各 种 已 有 的 用 于 改进 上 述 通用 算法 的 方案 . 


7.2.2 ”立即 更 新 


当 在 t 次 迭代 的 时 候 X 的 一 些 元 素 已 经 被 更 新 了 , 如 果 在 更 新 其 他 的 元 素 时 
不 使 用 这 些 更 新 后 的 值 会 造成 一 定 程度 的 浪费 . 事实 上 , Gibbs 抽样 可 通过 在 每 一 
步 都 利用 最 近 得 到 的 其 他 元 素 的 值 来 获得 更 好 的 效果 . 这 种 方法 改进 了 链 的 混合 ， 
换 句 话说 , 链 能 够 更 快速 , 更 详尽 地 探索 目标 分 布 的 支撑 空间 ，Gibbs 抽样 描述 如 
Fe 

(1) 选择 初始 值 z(%, 并 令 t= 0; 
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(2) 逐个 生成 


XP ~ f (eile, 2), 


1 t+1 
xt |: m f (zala 1a. 2), 


(7.16) 
1 1 

Xp 

RE ol a at), 


其 中 |. 表示 以 所 有 其 他 元 素 最 近 的 值 为 条 件 ; 
(3) 增加 t, 返回 第 (2) 步 . 


7.2.3 ”更 新 排序 


(7.16) 中 X 元 素 的 更 新 顺序 对 于 不 同 的 循环 是 可 以 变化 的 . 有 时 候 对 每 个 循 
环 而 言 , 使 用 随机 顺序 是 比较 合理 的 . 这 被 称 作为 随机 扫描 Gibbs 抽样 [460]. 事实 
上 , 甚至 没有 必要 对 每 个 循环 中 的 每 个 元 素 都 进行 更 新 , 而 只 要 每 个 元 素 的 更 新 足 
够 地 频繁 就 可 以 了 . 


7.2.4 区 组 化 


Gibbs 抽样 的 另 一 种 改进 方法 是 所 谓 的 区 组 化 或 分 组 化 . 在 Gibbs 算法 中 , 我 
们 没有 必要 单独 处 理 每 一 个 X 的 元 素 . 在 例 7.4 中 , 河流 生态 参数 自然 地 被 分 为 条 
件 化 的 多 项 分 布 组 , 条 件 化 的 Dirichlet 分 布 组 , 以 及 某 单独 的 条 件 化 的 Poisson 元 
K. 举例 来 说 , 在 上 面 (7.16) 的 一 般 步骤 中 , 取 p = 4, 则 对 每 一 个 循环 可 采用 如 下 
的 更 新 序列 : 


xen RT (aaf, 24,21), 


:Ff (az salaf? s) ， 


Xe), xi) 


xen 


t+1) 2 (t+]) (t+l 
inf 4|ztt+ ) af Daft My 


当 X 的 元 素 相关 时 , 区 组 化 特别 有 用 , 用 其 构造 的 算法 能 够 使 更 相关 的 元 素 在 同 
一 个 区 组 中 被 一 起 抽样 出 来 ,Roberts 和 Sahu 比较 了 各 种 区 组 化 和 更 新 排序 方法 
的 收敛 速度 [463]. 基于 模型 结构 , Sargent 等 人 的 结构 化 MCMC 方法 为 区 组 化 提 
供 了 一 种 系统 化 的 方法 [480] 该 方法 在 大 量 参数 的 情形 下 能 够 有 更 好 的 收敛 速度， 
比如 刚体 力学 模型 的 Bayes 分 析 [106]. 
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7.2.5 ”混合 Gibbs 抽样 


因为 Gibbs 抽样 的 一 个 循环 内 的 每 一 步 本 身 都 是 一 个 Metropolis-Hastings 2 
AR, 所 以 我 们 也 可 在 适当 的 时 候 使 用 不 同 的 Metropolis-Hastings 变形 . 例如 , 对 于 
p=6, 一 种 混合 MCMC 算法 可 如 下 进行 

(1) 用 某 Gibbs 迭代 更 新 XPD] (29,299. 20,2, aP); 

(2) FASE Metropolis 迭代 更 新 (xi, xf”) | (D aa, aP); 

(3) 用 某 随 机 游 走 链 迭 代 更 新 a (sD 2649, 2? af); 

(4) 用 某 Gibbs 迭代 更 新 (x), xe) | (af af of af). 

当 X 的 一 个 或 者 多 个 元 素 的 一 元 边际 密度 没有 显示 表达 的 时 候 ，Gibbs 算法 
中 的 Metropolis-Hastings 迭代 特别 有 用 . 
7.2.6 ” 另 一 种 一 元 提案 方法 

当 不 是 所 有 的 条 件 分 布 都 可 以 容易 地 抽样 的 时 候 , 混合 方法 , 比如 嵌入 Gibbs 
算法 的 Metropolis-Hastings 方法 , 能 够 有 效 地 构造 Gibbs- 型 链 . 另外 , 由 第 6 章 中 的 
技术 拓展 得 到 的 方法 可 用 于 生成 服从 那些 难以 直接 抽样 的 一 元 条 件 分 布 的 
样本 . 

其 中 一 种 这 样 的 方法 是 格 点 Gibbs 抽样 [458, 529]. 假设 对 某 一 特定 的 k, RAI 
很 难 通过 一 元 条 件 密度 Xele- 抽样 . 格 点 Gibbs 方法 首先 需 在 fler) 的 支撑 
上 选择 一 些 格 点 z1,… ,zn. wl = fllh) j= ln 利用 这 些 权 以 及 相 
应 的 格 点 , 我 们 可 以 近似 密度 函数 f(.|z_), 或 者 等 价 地 , 近似 其 分 布 的 逆 函 数 , 然 
后 用 这 个 近似 来 生成 XPI et, 并 进行 剩 下 的 MCMC 算法 . 对 于 第 k 个 一 元 条 
件 分 布 的 近似 精度 可 在 迭代 的 过 程 中 不 断 地 得 到 提高 .最 简单 的 近似 和 抽样 方法 
是 通过 使 用 逆 累 加 分 布 函数 方法 ( 见 6.2.2 节 ), 从 离散 分 布 ww 的 概率 密 
度 取 值 z1,… ,zn 中 抽取 XE Me. 这样 得 到 的 近似 的 密度 函数 是 逐 段 常 数 的 ， 
其 在 任意 两 相 邻 格 点 的 中 点 之 间 具 有 一 密度 值 使 得 在 包含 z; 的 片段 上 的 总 的 概率 
5 wh 成 比例 , 由 此 密度 函数 可 生成 一 个 逐 段 线 性 的 累积 分 布 函 数 . 基于 第 10 章 
中 的 密度 估计 的 想法 还 可 获得 一 些 其 他 的 方法 . 
如 果 对 于 f(-|z-_) 的 近似 随时 间 的 变化 通过 改进 格 点 的 取 值 而 不 断 地 进行 更 
新 , 那么 所 得 到 的 链 就 不 是 时 间 齐 性 的 . 在 这 种 情况 下 , 文献 中 的 关于 Metropolis- 
Hastings 或 者 Gibbs 链 的 收敛 结果 就 不 能 够 确保 格 点 Gibbs 链 具有 等 于 f 的 极限 
平稳 分 布 . 一 种 确保 时 间 齐 性 的 方法 是 在 迭代 的 过 程 中 不 要 对 一 元 分 布 的 近似 进行 
任何 的 更 新 .但 是 这 时 该 链 依赖 于 fOe) 的 近似 而 不 是 真实 的 密度 , 其 极限 分 
布 仍然 是 不 正确 的 . 我 们 可 利用 一 个 混合 Metropolis-Gibbs 的 框架 来 解决 这 个 问 
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题 , 也 就 是 将 由 f(-|z_) 的 近似 所 得 到 的 变量 看 作 是 一 提案 , 然后 基于 Metropolis- 
Hastings 比率 来 随机 地 决定 是 保留 还 是 舍弃 该 变量 .Tanner 探讨 了 大 量 潜在 的 对 
于 基本 的 格 点 Gibbs 抽样 的 改进 方法 [529]. 


7.3 实 施 


MCMC 方法 的 目标 是 估计 目标 分 布 函数 f. 这 种 方法 的 可 靠 性 依赖 于 由 马 氏 
链 的 生成 值 所 计算 得 到 的 样本 均值 对 应 该 链 的 极限 平稳 分 布下 的 期 望 的 程度 . 前 面 
我 们 所 介绍 的 所 有 MCMC 方法 都 具有 正确 的 极限 平稳 分 布 . 但 是 , 实际 使 用 该 方 
法 时 , 我 们 需要 决定 什么 时 候 马 氏 链 已 经 运行 了 足够 长 的 时 间 以 使 得 我 们 有 理由 确 
信 所 得 到 的 输出 足够 代表 目标 分 布 , 也 即 何 时 用 所 得 的 输出 可 以 得 到 可 靠 的 估计 ， 
不 幸 的 是 , 有 时 MCMC 方法 收敛 地 非常 慢 , 也 就 是 需要 特别 长 的 运行 时 间 , 尤其 是 
当 X 的 维 数 很 大 的 时 候 . 另外 , 当 使 用 MCMC 算法 的 输出 来 判断 是 否 近似 地 达 
到 收敛 的 时 候 , 我 们 很 容易 获得 错误 的 结论 ， 

本 节 将 研究 链 的 长 期 运行 的 表现 问题 . 例如 , 链 是 否 已 经 运行 地 足够 长 了 ; 链 
的 前 面部 分 是 否 受 初始 值 的 强烈 影响 ; 是 否 该 使 用 多 个 不 同 的 初始 值 来 运行 ; 链 是 
否 跨 越 了 f 支撑 区 域 的 所 有 部 分 ; 抽样 值 是 否 近 似 服从 f 如 何 用 链 的 输出 得 到 
估计 并 衡量 其 近似 精度 , 等 等 . 关于 MCMC 的 诊断 方法 可 参见 [70, 107, 320, 389, 
459). 本 节 最 后 我 们 会 给 出 一 些 关 于 MCMC 算法 编程 方面 的 实用 建议 . 
7.3.1 ”确保 良好 的 混合 和 收敛 


实际 应 用 中 很 重要 的 一 点 是 考虑 MCMC 算法 对 于 某 个 感 兴趣 的 问题 提供 的 
信息 是 否 有 效 . 有 效 性 可 以 在 不 同 的 情形 下 有 不 同 的 解释 , 但 这 里 我 们 主要 集中 在 
考虑 要 多 久 链 才 可 以 不 依赖 于 其 初始 值 以 及 需要 多 长 时 间 该 链 能 够 完全 挖掘 目标 
分 布 函 数 支撑 的 信息 . 另外 一 个 相关 的 问题 是 在 一 个 序列 中 观测 值 之 间 要 相隔 多 远 
才 可 以 看 作 是 近似 独立 的 . 我 们 将 这 些 问题 看 作 该 链 的 混合 性 质 . 

我 们 还 需 考虑 该 链 是 否 近 似 地 达到 其 平稳 分 布 . 实际 上 , 分 析 是 否 收敛 到 平稳 
分 布 和 研究 该 链 的 混合 性 质 之 间 有 很 大 程度 的 近似 之 处 . 许多 分 析 诊 断 方法 可 同 
时 用 于 研究 混合 和 收敛 的 性 质 . 此 外 , 没有 一 种 诊断 方法 是 一 定 有 效 的 ; 当 某 链 不 
收敛 时 , 一 些 方法 却 得 到 收敛 的 诊断 结果 . 基于 上 述 原因 , 我 们 将 在 接 下 来 的 几 个 
小 节 中 对 混合 和 收敛 进行 联合 讨论 , 并 给 出 多 种 诊断 技术 . 

1， 提案 的 选择 


正如 在 7.1 节 中 所 提 到 的 , 提案 分 布 的 性 质 对 混合 有 很 强 的 影响 , 尤其 是 其 延展 
度 . 进一步 地 , 一 个 良好 的 提案 分 布 所 应 具有 的 特点 依赖 于 我 们 所 要 使 用 的 MCMC 
方法 的 类 型 . 
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对 于 某 个 Gibbs 抽样 , X 的 分 量 之 间 越 独立 , 其 效果 就 越 能 够 得 到 增强 . 一 个 
重要 的 减少 相关 性 的 策略 是 重新 参数 化 . [212, 287) 给 出 了 多 种 方法 的 详细 讨论 . 参 
见 7.3.1 节 第 4 部 分 及 习题 7.7. 

对 于 一 个 一 般 的 Metropolis-Hastings 链 , 比如 某 独立 链 , 直观 上 显然 我 们 希望 
提案 分 布 9 能 够 非常 好 地 近似 f, 因此 看 上 去 我 们 想 要 的 是 以 很 高 的 比率 接受 提 
案 . 尽管 我 们 需要 g 和 f 很 相像 , 但 9 的 尾部 表现 比 其 在 高 密度 区 域 与 /的 相近 
程度 更 重要 . 特别 地 , WR f/g AF, 总 的 来 说 马 氏 链 收敛 到 其 平稳 分 布 会 更 快 些 
(460). 因此 , 明智 的 做 法 是 使 提案 分 布 从 某 种 程度 上 来 说 比 /更 加 分 散 . 

实际 应 用 中 , 我 们 可 以 利用 一 个 非 正式 的 办 代 过 程 来 选择 提案 分 布 的 方差 . 开 
始 生 成 一 个 链 , 观测 并 记录 提案 被 接受 的 比率 , 然后 相应 地 调整 提案 分 布 的 延展 度 . 
在 达到 了 某 个 预先 设 定 的 接受 率 之 后 , 适当 调整 提案 分 布 的 尺度 并 重新 开始 该 链 . 
对 于 目标 分 布 和 提案 分 布 为 正 态 的 Metropolis 算法 , 文献 中 建议 使 用 介 于 25% 和 
45% 之 间 的 接受 率 , 其 中 对 于 一 维 或 者 二 维 问题 来 说 , 最 佳 的 接受 率 大 约 为 45%, 
而 对 于 更 高 维 的 问题 , 较 好 的 选择 是 在 23% 左右 [194, 461]， 对 于 7.1.5 节 中 的 
multiple-try Metropolis-Hastings 算法 , 我 们 建议 使 用 40% 和 50% 之 间 的 接受 率 
[359]. 注意 这 些 推荐 的 比率 只 有 当 目 标 及 提案 分 布 大 约 为 正 态 分 布 , 或 者 至 少 是 单 
峰 分 布 的 情况 下 才 可 以 使 用 . 比如 当 目 标 分 布 是 多 峰 的 , 链 很 有 可 能 都 集中 在 某 一 
个 峰 附近 , 而 不 能 够 充分 地 挖掘 参数 空间 中 的 其 他 部 分 . 在 这 种 情况 下 , 接受 率 可 
能 会 相当 地 高 , 而 从 一 峰 跳 至 另 一 峰 的 概率 却 很 低 . 这 是 绝 大 多 数 MCMC 方法 都 
会 遇 到 的 难点 问题 ; 所 以 通常 来 说 , 尽管 目标 分 布 的 具体 形式 或 参数 是 未 知 的 , 但 
我 们 也 希望 对 其 有 尽 可 能 多 的 信息 以 便 更 好 地 实现 MCMC 算法 . 

(460) 提出 了 一 个 完全 自动 的 确定 9 的 方法 , 其 推广 了 自 适应 拒绝 抽样 方法 ( 参 
见 6.2.3 节 第 2 部 分 ). 当 我 们 对 f 的 形状 信息 知之 甚 少 的 时 候 , 该 方法 非常 有 用 . 
2， 链 的 个 数 


实际 中 一 个 关键 且 非 常 困难 的 诊断 问题 是 , 判断 链 是 否 长 期 停留 在 一 个 或 多 个 
目标 函数 的 峰 附 近 . 在 这 种 情况 下 , 使 用 绝 大 多 数 的 诊断 方法 都 很 可 能 得 到 链 收敛 
的 结论 , 但 事实 上 此 链 并 没有 完全 地 刻画 出 目标 分 布 . 一 个 解决 该 问题 的 方法 是 运 
行 多 个 具有 不 同 初始 值 的 链 , 并 比较 其 链 内 和 链 间 的 表现 情况 . 7.3.1 节 第 5 部 分 
将 给 出 该 方法 . 

令 人 惊讶 的 是 , 运行 多 个 链 来 研究 链 之 间 的 表现 情况 的 这 种 一 般 想法 实际 上 相 
当 有 争议 性 . 在 MCMC 方法 的 早期 统计 发 展 中 , 其 中 一 个 最 热烈 的 争论 是 到 底 是 
将 有 限 的 运行 时 间 花 在 加 长 一 个 链 的 运行 长 度 上 更 重要 , 还 是 用 在 同时 运行 多 个 具 
有 不 同 初始 点 的 较 短 的 链 来 研究 表现 情况 更 有 意义 [204, 196, 389]. 尝试 使 用 多 个 
链 的 出 发 点 在 于 希望 目标 分 布 的 所 有 我 们 感 兴趣 的 特点 (比如 多 峰 ) 能 够 通过 至 少 
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一 个 链 挖 拨 出 来 , 并 且 使 用 单独 链 的 无 效 性 , 也 就 是 单独 链 不 能 够 找 出 这 些 特点 或 
者 忽视 了 初 值 的 影响 , 能 够 被 检查 出 来 . 在 这 种 情况 下 , 我 们 需要 加 长 链 或 者 重新 
参数 化 该 问题 使 其 具有 更 好 的 混合 . 

使 用 长 链 的 一 些 论点 如 下 .使 用 许多 短 链 只 有 在 它们 揭示 出 不 好 的 收敛 表现 
时 才 会 比 使 用 长 链 更 有 意义 . 在 这 种 情况 下 , 由 这 些 短 链 模 拟 生 成 的 值 是 不 稳定 的 . 
次 , 使 用 多 个 短 链 来 诊断 收敛 的 有 效 性 主要 限于 一 些 不 切实 际 的 简单 问题 或 者 那 
些 我 们 已 经 很 好 地 了 解 f 的 问题 中 . 第 三 , 给 定 某 总 的 计算 量 , 若 将 其 分 配 到 多 个 
链 的 运行 上 有 可 能 会 得 到 不 好 的 收敛 , 但 若 将 其 全 部 用 于 一 个 长 链 的 运行 上 可 能 就 
不 会 如 此 . 

从 实际 应 用 的 角度 , 我 们 不 认为 上 述 的 使 用 单独 链 的 论点 完全 令 人 信服 . 由 不 
同 的 初 值 来 生成 多 个 短 链 是 计算 机 代码 全 面 调试 中 基本 的 要 素 . 我 们 对 f 的 一 些 
主要 的 特征 (比如 多 峰 , 高 度 集中 的 支撑 域 ), 经 常 有 很 好 的 认 知 一 一 即使 复杂 的 
实际 问题 — 尽管 不 能 够 确定 对 这 些 特征 的 具体 细节 . 由 多 个 不 同 初始 状态 所 得 
到 的 结果 通常 还 可 以 提供 f 的 关键 特征 的 一 些 信息 , 反 过 来 这 些 信息 能 够 帮助 我 
们 决定 使 用 的 MCMC 方法 以 及 问题 的 参数 化 是 否 得 当 . 多 个 短 链 的 不 好 的 收敛 情 
况 亦 能 够 帮助 我 们 决定 当 使 用 某 长 链 的 时 候 , 链 的 表现 的 哪些 方面 是 我 们 最 需要 监 
控 的 . 最 后 , CPU 的 运算 速度 已 今 非 昔 比 , 而 且 花费 也 越 来 越 少 . 我 们 可 以 使 用 多 
个 短 链 和 一 个 长 链 . 在 使 用 覆盖 f 支撑 的 具有 不 同 初 值 的 多 个 短 链 之 后 , 我 们 能 
够 进行 一 些 解释 性 的 工作 . 链 的 表现 的 诊断 可 以 通过 大 量 正式 和 非 正式 的 技术 来 实 
Bh, 其 中 许多 技术 将 在 下 面 给 出 介绍 . 在 确信 实施 方案 能 够 成 功 之 后 , 我 们 就 可 以 
由 一 个 好 的 初始 值 来 运行 一 个 最 终 的 相当 长 的 链 来 计算 并 公布 结果 . 
3， 用 于 评价 混合 和 收 合 的 简单 图 

在 编写 程序 并 运行 了 具有 多 个 初始 值 的 MCMC 算法 之 后 , 对 于 特定 的 问题 ， 
使 用 者 们 应 该 运用 各 种 诊断 工具 来 研究 MCMC 算法 的 性 质 . 下 面 我 们 将 讨论 三 种 
简单 的 诊断 方法 . 

样本 路 径 是 一 个 描述 迁 代 数 对 应 XO,¢ = 0,1,… , 的 实现 值 的 图 . 样本 路 径 
有 时 也 被 称 为 迹 或 者 历史 图 . 如 果 链 的 混合 不 是 很 好 , 那么 在 很 多 次 迭代 中 它 都 将 
会 取 相同 或 者 相近 的 值 , 如 7.2 下 图 中 所 示 . 一 个 混合 很 好 的 链 能 够 快速 地 远离 初 


cusum( 累 积 和 ) 诊断 用 于 衡量 一 维 参 数 9 = E{h(X)} 的 估计 的 收敛 性 [578]. 
在 含 去 最 初 的 一 些 和 迭代 值 之 后 ,基于 链 的 n 个 实现 的 估计 为 6 = t È h (x). 


cusum 诊断 是 一 个 描述 D (n(x) 本] 对 应 + 的 图 ， 如 果 最 终 的 估计 量 是 用 
除去 一 些 项 谋 值 (将 在 后 一 讨论 ) 之 后 的 剩余 链 的 选 代 计算 而 得 到 的 , 那么 估计 和 
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cusum 图 就 应 该 基于 那些 在 最 终 估 计量 中 使 用 的 值 . Yu 和 Mykland [578] 指出 如 果 
cusum 图 非常 地 拉动 并 且 离 0 比较 近 , 则 说 明 该 链 具 有 良好 的 混合 . 那些 离 0 较 远 
且 很 光滑 的 图 说 明 链 由 较 低 的 混合 速度 . 与 其 他 收敛 诊断 一 样 ，cusum 图 也 具有 如 
下 缺点 : 对 于 多 峰 分 布 链 长 期 停滞 在 某 一 峰 的 情况 ，cusum 图 可 能 会 得 到 好 的 效 
果 的 诊断 结果 , 而 实际 上 , 链表 现 并 不 好 . 

自 相关 性 图 用 于 描述 XO 序列 在 不 同 迭 代 延 迟 下 的 相关 性 . 延迟 i 的 自 相 关 

性 是 指 相距 i 步 的 两 迭代 之 间 的 相关 性 [187]. 具有 较 差 的 混合 性 质 的 链 随 着 迭代 
间 延 迟 的 增加 会 表现 出 较 慢 的 自 相关 性 衰减 . 对 于 多 于 一 个 参数 的 问题 , 我 们 也 许 
还 应 该 考虑 有 联系 的 参数 之 间 的 交互 相关 性 , 因为 较 高 的 交互 相关 也 可 能 表明 该 链 
具有 较 差 的 混合 . 
例 7.5 (估计 混合 参数 , 续 ) 图 7.6 给 出 的 是 例 7.2 中 所 描述 的 独立 链 的 自 相关 
性 图 . 在 上 图 中 , 由 于 使 用 一 个 更 适当 的 提案 分 布 , 所 得 到 的 链 的 自 相关 性 衰减 的 
相当 快 . 而 下 图 中 使 用 一 较 差 的 提案 分 布 导 致 其 自 相关 性 非常 地 高 , 相隔 40 步 的 
观测 之 间 的 相关 性 仍 可 达到 0.92. 此 图 很 明显 地 指出 较 差 的 混合 性 质 . 
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图 7.6 Bl 7.2 中 所 描述 的 提案 密度 为 Beta(1,1) (上 图 ) 和 Beta(2, 10) (下 图 ) 的 独立 链 对 应 
的 自 相 关 图 


4， 重 新 参数 化 


我 们 可 以 通过 对 模型 的 重新 参数 化 来 改进 Gibbs 抽样 和 Metropolis-Hastings 
算法 的 混合 性 质 . X 元 素 间 的 高 度 相 关 性 会 导致 Gibbs 抽样 较 差 的 收敛 , 而 通过 
对 模型 的 重新 参数 化 则 能 够 降低 相关 因此 可 加 快 其 收敛 速度 . 举例 来 说 , E f 是 具 
有 很 强 正 相 关 的 二 元 正 态 分 布 , 则 对 于 两 个 一 元 条 件 分 布 而 言 , 在 任 一 个 轴 上 我 们 
通常 只 能 取 相距 XO = 2 较 小 的 步 幅 . 因此 , Gibbs 抽样 收敛 至 f 的 速度 会 非常 
慢 . 但 如 果 我 们 假设 Y = (Xi + Xo, X1— X2). 这 样 的 变换 会 使 得 一 个 一 元 条 件 
分 布 落 在 X 的 最 大 变 差 所 对 应 的 轴 上 , 而 另 一 个 落 在 与 该 轴 正 交 的 另 一 轴 上 . 如 
果 我 们 将 f 的 支撑 视 作 一 雪茄 型 , 则 对 于 Y 的 一 元 条 件 分 布 允 许 我 们 取 到 雪茄 的 
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长 度 和 宽度 的 步 幅 . 因此 , 参数 化 至 Y 使 我 们 能 够 更 容易 地 由 目标 分 布 的 支撑 上 
的 一 点 通过 一 步 (或 很 少 的 几 步 ) 移动 至 另 一 点 . 

对 于 线性 模型 问题 , 如 果 协 变量 是 连续 的 , 那么 我 们 可 以 通过 对 这 些 协 变量 的 
中 心 标准 化 以 达到 降低 模型 中 参数 相关 性 的 目的 . 另 一 种 方法 是 所 谓 的 等 级 中 心 
化 . 这 种 方法 对 于 具有 随机 效应 的 模型 特别 有 用 . 见 问题 7.7. 

不 幸 的 是 , 重新 参数 化 的 方法 通常 对 于 特定 的 模型 需要 特定 的 处 理 , 因此 我 们 
很 难 给 出 通用 的 步骤 另 一 种 改进 MCMC 算法 的 混合 , 加 速 其 收敛 速度 的 办 法 是 
通过 使 用 所 谓 的 辅助 变量 来 放大 问题 ; 参见 第 8 章 . 大 量 的 重新 参数 化 和 加 速 的 技 
术 可 参见 [91, 460] 及 其 中 的 参考 文献 . 
5， 预 烧 和 运行 长 度 


在 关于 收敛 的 诊断 中 核心 问题 是 考虑 预 烧 期 和 运行 长 度 . 回想 MCMC 算法 只 
有 在 极限 情况 下 才 会 有 XO ~ f. 对 于 任何 的 操作 , 其 中 的 迭代 都 不 会 很 精确 地 服 
从 我 们 想 要 的 边际 分 布 , 而 链 对 初始 点 的 依赖 性 也 很 强 . 为 了 降低 这 个 问题 的 严重 
性 , 我 们 通常 会 舍弃 链 的 前 D 个 值 , 也 就 是 所 谓 的 预 烧 期 . 

关于 预 烧 期 和 运行 长 度 的 确定 是 当前 活跃 的 研究 方向 . 一 个 常用 的 方法 由 Gel- 
man 和 Rubin [194, 196] 提出 . 这 个 方法 中 , MCMC 算法 由 J (J > 2) 个 等 长 的 链 组 
成 , 这 些 链 的 初始 值 散布 在 目标 密度 的 支撑 上 . 令 也 表示 在 舍 去 D 个 迭代 之 后 每 个 
链 的 长 度 . 假设 感 兴趣 的 变量 是 X, 其 在 第 j MEER t PEREA rt. 因此 , 对 
于 第 j 个 链 , 全 去 DD 个 迭代 值 xo)， ,z(D-0, 而 剩 下 工 个 值 2 PD 

a 


1 Pte} 四 1 J 
=z Vio) Hae =F5 5 (7.17) 


定义 链 间 方差 为 


L J 
B= (5; -5). (7.18) 
j=l 


现 如 对 7 MRERURE AIH 92 = 72S (P-a) We 


D 
à J 
= 2 
W=5ds (7.19) 


代表 J 个 链 内 方差 估计 的 平均 值 . 最 后 , © 


L-1 1 
—W+78 


R= Ta (7.20) 
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如 果 所 有 的 链 都 是 平稳 的 , 则 分 子 和 分 母 都 应 该 是 X 边际 方差 的 估计 . 但 如 果 链 间 
有 显著 的 差异 , 则 分 子 将 会 比分 母 大 . 随 着 工 一 co, VRE 一 1. 实际 应 用 中 , 某 些 学 
者 建议 可 以 接受 VR < 1.2[194]. 如 果 选 定 的 预 烧 期 不 能 得 到 令 人 接受 的 结果 , 则 
或 者 增 大 D, 或 者 增 大 L, 或 者 两 者 同时 增 大 . 一 个 保守 的 做 法 是 将 迭代 的 前 一 半 
都 当 作 是 预 烧 期 . 如 果 将 迭代 1O 做 一 定 变换 使 得 其 分 布 近似 为 正 态 , 则 会 增强 这 
种 诊断 方法 的 效果 . 另 一 个 可 选 方案 是 对 模型 重新 参数 化 并 重新 运行 链 . 

使 用 这 种 方法 有 一 些 潜在 的 困难 . 当 f 是 多 峰 分 布 的 情况 下 , 如 何 选择 合适 的 
初始 值 也 许 较为 困难 , 如 果 选 择 不 恰当 , 则 会 导致 大 部 分 的 链 都 长 期 停留 在 同样 的 
子 域 或 者 峰 的 附近 . 由 于 它 的 一 维 性 , 这 种 方法 对 于 多 维 的 目标 分 布 给 出 的 收敛 诊 
断 结果 也 许 会 是 错误 的 ，[196] 给 出 了 一 些 Gelman-Rubin 统计 量 的 改进 方案 ,而 
[65] 则 提供 了 关于 多 维 目 标 分 布 情形 下 的 推广 . 

Raftery 和 Lewis [444] 提出 了 用 于 估计 预 烧 期 和 运行 长 度 的 一 种 完全 不 同 的 
定量 方案 . 还 有 一 些 学 者 建议 不 要 使 用 预 烧 [202]. 


7.3.2 ”实际 操作 的 建议 


由 上 面 的 讨论 引出 如 下 问题 : 链 的 个 数 , 预 烧 期 的 迭代 数 以 及 预 烧 期 后 链 的 长 
度 分 别 应 该 取 什么 值 . 大 多 数 的 学 者 都 不 愿 推荐 通用 的 值 , 因为 适当 的 选择 高 度 依 
赖 于 问题 本 身 以 及 所 使 用 的 链 挖掘 f 支撑 域 的 速度 和 效率 . 类 似 地 , 可 允许 的 运算 
时 间 也 在 一 定 程度 上 决定 了 这 些 值 的 选择 . 在 过 去 几 年 发 表 的 一 些 分 析 研 究 中 , 曾 
使 用 过 从 零 到 数 万 的 预 烧 期 以 及 从 数 千 到 上 百 万 的 链 的 长 度 . 诊断 通常 依赖 于 三 个 
或 更 多 的 链 . 5 至 10 年 前 , 预 烧 期 和 链 的 长 度 只 有 现在 的 十 分 之 一 . 由 于 计算 速度 
的 高 速 发 展 MCMC 所 应 用 的 范围 和 强度 也 随 之 大 量 增加 . 

总 之 , 这 里 我 们 重 述 7.3.1 节 第 2 部 分 中 所 作 的 推荐 , 也 就 是 与 文献 [108] 相 一 
致 . 首先 , 建立 多 个 具有 不 同 初始 值 的 试验 性 的 链 . 然后 , 使 用 一 些 如 前 面 所 讨论 的 
诊断 方法 确保 链 具有 良好 的 混合 并 且 近 似 地 收敛 到 平稳 分 布 . 接 下 来 用 一 个 新 的 种 
子 生成 随机 数 并 重新 启动 最 终 的 长 链 . 

为 了 更 好 地 了 解 MCMC 方法 及 其 表现 , 从 头 开始 编写 这 些 算法 是 最 为 直接 的 
方法 . 而 若 考 虑 更 容易 的 实现 方法 , 各 种 已 有 的 软件 包 可 用 来 自动 地 实现 MCMC 算 
法 及 相应 的 诊断 . 目前 最 全 面 的 软件 是 WinBUGS (Bayesian inference Using Gibbs 
Sampling) [515]. 而 像 BOA (Bayesian Output Analysis) [512] 这 样 的 软件 使 使 用 者 
容易 利用 S-Plus [476] 或 R [199] 等 统计 软件 包 构造 相关 的 诊断 方法 . 大 多 数 这样 
的 软件 都 可 在 互联 网 上 免费 得 到 . 


7.3.3 ”使 用 结果 
这 里 我 们 考虑 MCMC 算法 输出 结果 的 一 些 常用 的 概要 ; 更 进一步 描述 可 见 7.4 
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节 中 的 例子 . 

首先 来 看 边际 分 布 . 如 果 XO 代表 一 个 p 维 马 氏 链 , 则 xO} 是 某 极限 分 布 
为 f 的 第 i 个 边际 分 布 的 马 氏 链 . 如 果 我 们 仅 关 心 这 个 边际 的 性 质 , 则 可 舍弃 剩余 
的 模拟 并 分 析 XO 的 实现 . 

标准 的 描述 性 统计 量 , 比如 均值 、 方差 , 通常 是 我 们 所 关心 的 ( 见 7.1 节 ). 最 党 
用 的 估计 基于 经 验 平均 . 舍弃 预 烧 期 , 然后 利用 


1 Pti 
D h (x®) (7.21) 
t= 

TEA E(A(X)} 的 估计 来 计算 我 们 关心 的 统计 量 , 其 中 LH BIE US EDTA 
余 的 运行 长 度 . 即使 XO 是 序列 相关 的 , 该 估计 也 是 相合 的 . 有 一 些 从 极限 理论 出 
发 的 观点 赞成 不 要 使 用 预 烧 (也 就 是 D = 1) (365). 但 是 , 由 于 用 于 计算 (7.21) 估 
计 的 迭代 数 毕竟 有 限 , 所 以 大 多 数 研究 者 倾向 于 使 用 预 烧 期 来 减少 这 些 可 能 与 目标 
分 布 相差 甚 远 的 初始 值 对 估计 的 影响 . 应 该 注意 的 是 , 我 们 不 需要 对 每 个 感 兴趣 的 
量 都 运行 一 个 链 . 在 获得 由 链 得 到 的 XO 的 实现 之 后 , 任何 量 都 可 由 这 些 实现 值 
推断 而 得 . 特别 地 , 任何 事件 的 概率 都 可 由 该 事件 在 链 上 所 出 现 的 频率 来 估计 . 

其 他 的 估计 方法 也 有 发 展 . (6.77) 中 的 Riemann 和 估计 已 被 证 明 比 上 面 所 介 
绍 的 标准 估计 有 更 快 的 收敛 速度 . 6.3 节 中 所 讨论 的 其 他 方差 缩减 技术 , 比如 Rao- 
Blackwellization, 可 用 于 减少 估计 的 Monte Carlo 77# [431]. 

Monte Carlo, 或 者 模拟 的 估计 量 的 标准 误 也 是 我 们 感 兴趣 的 量 之 一 . 形 如 
(7.21) 的 原始 标准 误 的 估计 由 L 个 预 烧 后 的 实现 的 标准 差 除 以 VL 得 到 ， 然 而 ， 
通常 MCMC 的 实现 是 正 相关 的 , 这 样 就 会 低估 标准 误 . 一 个 自然 的 修正 方法 是 基 
于 系统 子 样 来 计算 标准 误 , 也 就 是 说 , 预 烧 后 的 每 上 MER. 然而 该 方法 不 是 很 有 
效 [365]. 标准 误 的 一 种 简单 估计 方法 是 所 谓 的 批 次 方法 [80, 282]. 将 L 个 迭代 分 
为 几 个 批 次 , 比如 , 50 个 连续 的 选 代为 一 批 . 计算 每 一 批 的 均值 . 则 标准 误 的 估计 
为 这 些 均值 的 标准 差 除 以 批 次 个 数 的 平方 根 . 其 他 一 些 估计 Monte Carlo 方差 的 方 
法 可 参见 [91, 204, 456, 514). 

分 位 数 估计 以 及 其 他 区 闻 估 计 经 常 也 是 我 们 需要 的 . 各 种 分 位 数 的 估计 , 比如 
中 位 数 或 50% 分 位 点 , 都 可 由 链 的 实现 值 的 相应 的 分 位 点 来 估计 . 这 些 可 简单 地 通 
过 (7.21) 来 估计 尾部 概率 然后 用 逆向 关系 来 找到 . 

对 于 Bayesian 分 析 , 最 高 后 验 概率 (HPD) 区 间 的 计算 经 常 也 是 我 们 感 兴趣 的 
( 见 1.5 Fi). 对 于 对 称 的 后 验 分 布 , (1 —0)% HPD 区 间 估 计 就 是 迭代 的 第 (a/2) 和 
(1 — ca/2) 分 位 点 . 对 于 非 对 称 的 后 验 分 布 , 找到 适当 的 区 间 需 要 更 多 的 计算 . 

Chen 等 人 给 出 了 这 里 所 描述 的 关于 简单 描述 统计 量 的 更 加 复杂 的 一 些 方法 的 
详细 回顾 [91]. 
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我 们 不 应 该 忽视 MCMC 输出 的 简单 图 形 的 描述 . 分 位 数 的 直方 图 有 着 广泛 的 
应 用 , 比如 对 任意 感 兴趣 的 h, 我 们 可 画 出 h(x® 的 实现 的 直方 图 . 或 者 , 我 们 
可 使 用 第 10 章 中 所 介绍 的 密度 估计 技术 来 描述 一 组 得 到 的 值 . 画 出 散 点 图 和 其 他 
的 一 些 描述 性 图 像 来 说 明 f 的 关键 特性 也 是 实际 应 用 中 很 常用 的 方法 . 


7.3.4 Bl: REAM NR ARR 


我 们 用 一 个 包含 了 很 多 前 面 所 介绍 的 方法 的 例子 来 总 结 一 下 . 

由 于 商业 捕杀 和 生存 性 捕杀 , 软 毛 海豹 种 群 在 几 个 世纪 后 严重 减少 , 而 最 近 几 
E, 其 数量 在 新 西 兰 却 逐 渐 增 多 起 来 . 这 种 增多 引起 了 科学 家 们 极 大 的 兴趣 . 关于 
这 些 动物 已 有 大 量 的 研究 [55, 56, 345). 

我 们 的 目标 是 利用 捕获 -再 捕获 方法 来 估计 一 个 软 毛 海 豹 族群 中 幼 息 的 数量 
[496]. 在 这 些 研究 中 , 需要 重复 地 获得 未 知 大 小 的 数量 . 在 该 问题 中 , 这 个 数量 就 
是 软 毛 海豹 幼 嘎 的 数量 . 任何 单一 的 普查 都 不 可 能 提供 关于 总 体 数 量 的 完整 的 调 
查 , 甚至 也 不 需要 尝试 去 捕获 大 部 分 的 个 体 . 每 次 调查 中 被 捕获 的 个 体 都 会 被 做 上 
标记 然后 再 放生 回去 ， 一 个 被 标记 过 的 个 体 在 接 下 来 的 调查 中 再 次 被 捕获 则 被 称 
为 一 个 再 捕获 . 总 体 数量 可 基于 捕获 与 再 捕获 的 历史 数据 来 估计 . 高 再 捕获 率 说 明 
真实 的 总 体 大 小 不 会 超出 被 捕获 过 的 不 同 个 体 的 总 数 很 多 . 

令 N 为 未 知 总 体 的 大 小 , 现 欲 利用 了 次 调查 所 得 到 的 总 的 捕获 (包括 再 捕获 ) 
数目 来 估计 N, 这 些 数目 被 记 为 c = (c1,… ,cr). 我 们 假设 抽样 期 间 内 总 体 数目 不 
再 变化 , 也 就 意味 着 在 这 一 期 间 内 出 生 , 死亡 , 以 及 迁徙 是 无 关 紧 要 的 . 在 该 研究 中 
被 捕获 的 不 同 个 体 的 总 数 记 作 r. 

我 们 这 里 考虑 的 模型 是 每 次 调查 的 捕获 概率 未 知 且 a = (a, , ay). 此 模型 
假设 所 有 动物 在 任 一 捕获 期 内 是 等 可 能 被 捕获 的 , 但 捕获 的 概率 随时 间 而 变 . 该 模 
型 的 似 然 为 


N! z Ci N-—e: 
L(N,ale,r) x Wea Tera —a,)N-*, (7.22) 
经 常 称 此 模型 为 M(t) 模型 
在 新 西 兰 南 岛 的 Otago 半岛 所 作 的 捕获 _ 再 捕获 研究 中 , 一 个 季度 7 次 调查 
中 软 毛 海豹 被 标记 然后 释放 . 假设 海豹 幼 四 总 体 在 该 研究 期 间 内 不 变 是 合理 的 . 表 
7.1 给 出 的 是 在 i 次 调查 (i = 1,… ,7) 中 , 所 捕获 的 海豹 幼 息 的 数量 (c;) 以 及 在 这 
些 捕获 中 对 应 的 之 前 未 被 捕获 过 的 幼 息 的 数量 (ms)， 在 抽样 期 间 总 的 观测 到 的 不 
同 个 体 的 总 数 为 7 = 2 m; = 84. 
现 考虑 估计 , 我 们 可 使 用 等 级 Bayesian 框架 来 处 理 , 即 假设 N 和 a 相互 独立 
且 有 如 下 先 验 分 布 : 对 于 N, 非 信息 化 的 Jeffreys 先 验 F(N) oc 1/N 对 于 捕获 概率 ， 
F(oul@1, 82) = Beta(01,02),i = 1,--- ,7, 且 假 设 它们 是 先 验 可 交换 的 . 文献 中 一 些 研 
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究 指出 M(t) 模型 对 于 捕获 概率 的 先 验 分 布 相当 敏感 [201]. 为 了 减轻 这 种 敏感 , 我 
们 介绍 (01,02) 的 一 种 超 先 验 : f (1,02) x exp{ 一 (91 + 02)/1 000}, 其 中 假设 (01, 02) 
与 其 他 参数 是 先 验 独立 的 ， 接 下 来 , 通过 模拟 条 件 后 验 分 布 可 构造 一 种 Gibbs 抽 
样 


了 
N — 84|- ~ NegBin (sa 1-]Ja- a) ; (7.23) 
i=l 
ail- ~ Beta(ci +01, N — ci +02), i=1,---,7, (7.24) 
T(01 + 92)" TT 0, o _ 91 +6 
ontako [OE] II (1 — a) exp Too00 ts (7.25) 


其 中 | 表示 以 {N,a,01,92} 的 其 他 参数 和 表 7.1 中 的 数据 为 条 件 , NegBin 为 负 二 
项 分 布 ,k 是 未 知 参数 . 注意 从 (7.25) 中 抽样 并 不 容易 . 因此 我 们 建议 对 (7.25) R 
采用 Gibbs 抽样 与 Metropolis-Hasting 算法 中 的 其 中 一 步 混 合 的 抽样 方法 . 


家 7.1 一 个 季度 中 7 次 调查 的 软 毛 海豹 数据 


调查 尝试 , i 
a 2 3 4 5 6 7 
捕获 数量 G 30 22 29 26 31 32 35 
捕获 的 新 软 毛 海豹 数量 


然而 , 关于 (01,02) 生成 一 条 充分 混合 并 且 收 敛 的 链 存 在 很 大 的 困难 . 为 了 改 
善 这 种 情况 , 将 (01, 02) 变换 为 U = (U1, U2) = (log 61, log 02). 这 样 做 可 以 使 一 步 随 
机 游 动 有 效 地 更 新 U 的 数据 . 特别 地 , 提案 值 U 可 以 通过 抽取 e ~ N(0, 0.08577) 
获得 (其 中 工 为 2 x 2 的 单位 矩阵 ), 之 后 令 U* =u +e. 为 达到 关于 U 更 新 数 
据 的 23% 可 接受 率 的 选择 标准 差 为 0.085. 回想 例 7.2 中 的 (7.8) 式 , 为 反映 变量 的 
变化 , 需要 我 们 将 (7.24) 式 转化 为 (7.25) R. 因此 (7.24) 式 为 


ail: ~ Beta(c; + exp{ui}, N — ci + exp{u2}), i=1,---,7, 
且 (7.25) 式 为 


T(exp{u} + exp{ua}) ]" 
Us Ua} acre + ua) eate eN 


7 
x [fore — yt? exp {- ext} Dl } : 
1 


i= 


其 中 ku 是 未 知 常数 . 
下 面 预 烧 试验 的 结果 基于 一 条 和 迭代 100 000 次 的 链 得 到 , 其 中 前 1 000 VIEL 
被 去 掉 . 图 7.7 中 给 出 的 是 后 5 000 次 迭代 的 样本 路 径 . 图 7.7 右边 的 图 表示 的 是 
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7 多 和 UP 两 个 变量 的 样本 路 径 . 基于 5 轮 100 000 次 迭代 , N 的 Gelman-Rubin 
统计 量 (7.20) 为 1.000 47, 这 说 明 NO 链 基 本 上 是 平稳 的 . 


95000 97500 100 000 E O ed 
t v 


图 7.7 HESSD MIF HRS 5 000 次 选 代 对 于 N ( 左 图 ) 和 U ( 右 图 ) 的 样本 路 径 


7.8 表示 均值 取 值 捕获 概率 的 盒子 图 ，a0 = 2 of 对 应 NO, EMR 
i=l 
们 所 期 望 的 , 随 捕获 概率 的 均值 减少 , 总 体 数目 增加 , 图 7.9 是 关于 NO 的 直方 图 ， 
关于 N 的 后 验 推断 可 以 以 此 为 根据 . 在 (84, 95) 中 的 一 个 95% 的 HPD 区 间 内 , N 
的 后 验 均值 为 90. 


84 86 88 90 92 94 96 98 100 
NA 


图 7.8 WARTS aO 对 应 NO 的 盒子 图 


HANAY (Ne, r) 


90 95 100 
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(7.22) 式 给 出 的 似 然 方程 只 是 需要 考虑 的 捕获 -再 捕获 模型 的 众多 形式 之 一 . 


例如 , 有 着 常见 捕获 概率 的 模型 可 能 更 加 适合 . 此 问题 的 另 一 种 参数 化 方法 也 可 以 
用 来 研究 提高 MCMC 方法 的 收敛 性 和 混合 性 , 因为 收敛 性 与 混合 性 在 很 大 程度 上 
依赖 于 参数 化 和 (01,02) 的 更 新 


7.1 


7.2 


7.3 


问 题 


本 问题 的 目的 是 研究 在 用 来 模拟 参数 5 的 后 验 分 布 的 Metropolis-Hasting 算法 中 提案 

分 布 的 作用 . 在 (a) 中 , 要 求 模拟 参数 5 已 知 的 分 布 的 数据 . 在 (b)--(d) 中 , 假设 5 未 

A, 其 先 验 分 布 为 Unif(0, 1). 并 且 对 于 (b) 一 (d), 给 出 适用 的 图 以 及 概括 算法 输出 的 一 

个 表 . 为 方便 比较 , 我 们 对 此 算法 使 用 相同 的 迭代 次 数 、 随 机 种 子 、 起 始 值 以 及 预 烧 周期 . 

(a) 模拟 (7.6) 式 混合 分 布 中 的 200 个 数据 , 其 中 5 = 0.7. 画 出 这 些 数据 的 直方 图 . 

(b) 实现 一 条 独立 链 MCMC 过 程 来 模拟 5 的 后 验 分 布 , 并 使 用 来 自 (a) 中 的 数据 . 

(c) 实现 一 条 随机 游 动 链 , 其 中 6* = 6 +e, e~ Uinf(-1, 1). 

(d) 重新 参数 化 问题 令 U = log{5/(1 — 8)} 以 及 U" =u) +e. 同 (7.8) R, Æ U- 空间 
中 实现 一 条 随机 游 动 链 . 

(e) 比较 三 种 算法 在 估计 和 收敛 方面 的 表现 . 

模拟 (7.6) 式 的 混合 分 布 十 分 简单 ，( 见 问题 7.1(a)). 然而 , 利用 Metropolis-Hastings 算 

法 模拟 此 分 布 对 于 研究 提案 分 布 的 作用 是 有 益 的 . 

(a) 用 一 个 Metropolis-Hastings 算法 模拟 (7.6) 式 , 其 中 6 = 0.7, 并 以 N(z(9,0.012) 
为 提案 分 布 . 对 于 三 个 起 始 值 , z(5 = 0,7,15, BAR 10 000 次 . 画 出 每 条 链 的 输出 的 
样本 路 径 ， 如 果 只 能 获得 一 条 样本 路 径 , 则 关于 此 链 可 得 到 什么 结论 呢 ? 对 于 每 个 
模拟 , 给 出 数据 的 直方 图 并 将 真实 密度 全 加 在 直方 图 上 .基于 三 条 链 的 输出 , 可 说 明 
链 有 怎样 的 性 质 ? 

(b) 现 改变 提案 分 布 以 提高 链 的 收敛 性 质 .使 用 新 的 提案 分 布 , 重复 (a). 

在 一 个 以 原点 为 中 心 周 长 为 8 的 正方 形 内 , 考虑 半径 为 1 ALS D. FEAR D 与 正方 

形 的 面积 比 为 x/4. 令 f 表示 正方 形 上 的 均匀 分 布 . 因此 , 样本 点 (Xi Yi) ~ f(z,y),i= 

lenm tat x Lex, yep) X n Wii (其 中 当 A 为 真 时 1{4} 为 1, 否则 为 0). 


我 们 用 如 下 方法 估计 n. 起 始 值 为 (zto,y(o) = (0,0). 此 后 , 如 下 生成 候选 值 . 首 
先 , 生成 {À ~ Unif(—h, 月 以 及 ef? ~ Unif(—h, h). WR ( + co,y9 + t) 落 在 
正方 形 之 外 , 则 重新 生成 LO 和 eg, 直至 O +) yO +) 落 在 正方 形 之 内 . > 
(XD, YED) = (2 + Py +P). 增加 t. 这 将 生成 覆盖 正方 形 的 样本 点 ， 当 
tant, 停止 并 如 上 所 述 计算 元 . 
(a) 实施 此 方法 , 其 中 h = 1 H n= 20 000. 计算 +. 论述 增 大 n 会 有 怎样 的 影响 ? 增 
大 或 减少 h 会 有 怎样 的 影响 ? 
(b) 解释 此 方法 存在 缺陷 的 原因 . 使 用 相同 的 方法 生成 候选 值 , 通过 引入 Metropolis- 
Hastings 比率 给 出 正确 的 方法 . 证 明 给 出 的 抽样 方法 以 正方 形 上 的 均匀 分 布 为 平稳 
分 布 . 


(c) 实施 (b) 中 的 方法 并 计算 7. 论述 再 次 使 用 n 和 h 的 试验 过 程 . 

7.4 得 出 (7.15) 式 的 条 件 分 布 . 

7.5 ”实施 一 项 临床 试验 以 确定 一 种 激素 疗法 对 之 前 接受 过 乳腺 癌 治 疗 的 妇女 是 否 有 益 . 当 病 
BARN, 对 病人 进行 临床 试验 . 对 病人 进行 化 疗 , 并 将 其 分 成 激素 治疗 组 和 对 照 组 . 我 
们 要 的 观测 值 是 到 下 一 次 复发 的 时 间 , 可 以 认为 其 服从 一 个 参数 为 r0 (激素 治疗 组 ) 或 
9 (对 照 组 ) 的 指数 分 布 . 在 临床 试验 结束 前 , 有 很 多 妇女 没有 第 二 次 复发 , 因此 她 们 的 复 
发 时 间 被 删 失 . 

ER 7.2 中 , 一 个 删 失 时 间 M 代表 此 病人 被 观测 了 M 个 月 并 且 在 这 段 时 间 没 有 

复发 , 因此 她 的 复发 时 间 是 超过 M 个 月 的 . 例如 , 接受 激素 疗法 的 15 名 妇女 病 患 复发 ， 
她 们 复发 时 间 总 数 为 280 个 月 . 


表 7.2 ARERR 


yf = (ol! Of) 为 激素 疗法 组 中 的 第 i 个 人 的 数据 , 其 中 ol 为 时 间 , 且 如 果 ol! 
是 复发 时 间 则 58 为 1, 如 果 zf 是 删 失 时 间 则 58 为 0. 对 照 组 的 数据 可 用 类 似 方法 给 
出 . 

因此 似 然 方程 为 


LO, rly) x GE HEH E O exp { -0 > af -10 at}. 


你 被 药品 公司 雇佣 分 析 他 们 的 数据 .药品 公司 想 要 知道 激素 疗法 是 否 有 效 , 因此 需 
要 你 利用 Gibbs 抽样 方法 寻找 r 的 边际 后 验 分 布 . 用 Bayes 方法 分 析 这 些 数据 , 并 使 用 
FRA 
f(8,7) x 0°7* exp{—c8 — dôr}. 
有 专门 从 事 激素 疗法 的 医师 对 于 超 参数 给 出 合理 的 值 (a, bc, d) = (3, 1, 60, 120). 
(a) 概括 数据 , 描 点 绘图 . 
(b) 得 到 实现 Gibbs 抽样 必需 的 条 件 分 布 . 
(c) 编程 运行 Gibbs 抽样 . 使 用 一 系列 收 和 敛 诊 断 方法 来 评价 抽样 的 收敛 性 和 混合 性 . 解 
释 诊断 结果 . 
(d) 计算 可 估 的 联合 后 验 分 布 的 描述 性 统计 量 , 包括 边际 均值 、 标 准 差 以 及 对 每 一 个 参 
数 的 95% 的 概率 区 间 . 将 这 些 结果 作成 表 . 
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(e) 创建 一 个 图 表示 7 的 先 验 分 布 和 估计 的 后 验 分 布 , BORER WIP RBI. 
(f) 为 药品 公司 解释 你 的 结果 . 特别 是 对 r 的 估计 对 临床 试验 有 何 意义 ? 激素 疗法 组 的 
复发 时 间 与 对 照 组 相 比 是 否 显著 不 同 ? 
(g) 对 Bayes 分 析 常 见 的 批评 是 其 结果 过 于 依赖 先 验 . 通过 对 原始 超 参 数值 一 半 或 二 倍 
的 超 参数 重复 实施 Gibbs 抽样 , 以 研究 该 问题 . 给 出 描述 统计 量 的 表 用 以 比较 结果 . 
这 种 做 法 称 为 敏感 度 分 析 . 基于 你 的 结果 , 就 其 对 于 超 参数 值 的 敏感 度 而 言 , 你 对 药 
品 公司 有 何 建议 ? 
利用 例 6.4 中 给 出 的 关于 从 1951 年 到 1962 年 煤矿 事故 的 数据 . 对 于 这 些 数据 , 假设 模 
型 
x- Poisson(As), ¿= 1+: 8, (7.28) 
Poisson(Az), i=0+1,--- , 112. 
假设 Aila ~ Gamma(3,a), HA i = 1,2, a ~ Gamma(10,10)， 并 假设 9 服从 
{1,… ,112} 上 的 离散 均匀 分 布 . 问题 的 目的 是 要 通过 Gibbs 抽样 估计 模型 参数 的 后 
验 分 布 . 
(a) 对 于 变 点 模型 , 得 出 实现 Gibbs 抽样 所 需 的 条 件 分 布 . 
(b) 实施 Gibbs 抽样 . 用 一 系列 收敛 诊断 方法 来 评价 抽样 的 收 仇 性 和 混合 性 
(c) 创建 密度 直方 图 以 及 关于 0, M 和 Ao 的 近似 后 验 分 布 的 描述 统计 量 的 表 . 在 问题 
背景 下 解释 结果 . 
BD BERL, 
Yije = p + ai + Pj) + Eijks (7.27) 
其 中 i=1,… ,J j=l, Jua k=l, e, K. 对 于 每 个 i 和 j, 对 大 求 平均 , 则 我 们 
可 以 将 模型 (7.27) 重 写 为 


Yj =utat Byte, i= ,j=1,.,h, (7.28) 


其 中 Yy = = Yijk/K. 假设 ai ~ N(0, 08), Bia) ~ N(0; 03), 以 及 ec ~ N(O,02), HK 


中 每 组 参数 是 独立 的 先 验 分 布 假设 已 知 o2, oh, 02. 为 对 模型 进行 Bayes 推断 , 假 

设 对 p 有 一 个 不 是 特别 恰当 的 均匀 先 验 , 使 得 f(y) x 1. 对 此 问题 我 们 考虑 Gibbs W 

样 的 如 下 两 种 形式 [463]. 

(a) n= Uday. = = Z vu/n, 以 及 yi = E viz /Ji. TERERAA t 次 时 , 实现 该 模型 
了 


Gibbs 抽样 所 需 的 条 件 分 布 如 下 


p9] (2,0. y) ~ v (6 = at (t) Eth) ` 


i) 


[JV 
oft (u*?,8,y) ~N ( a («- per 一 Fi > as), vi) ; 


(ED / (+1) t+) Va ped 一 aft?) 
Bei) (x a o) on ($ (w Ji v) 


ay -1 
其 h i= (4+4) = (443) - 


(b) Gibbs 抽样 的 收敛 率 有 时 可 通过 重新 参数 化 得 到 提高 . 重新 参数 化 的 一 种 方法 称 为 


分 层 中 心 化 法 .对 于 本 模型 , 给 出 分 层 中 心 化 法 如 下 . 令 Yi; 如 (7.28) REX, 现 
令 ng =u +o + By, 因此 有 Yy ~ N (mij,02). 之 后 , E ni = uta, 并且 有 
nial ~ N (1,03), vila ~ N (4,02). 同上 , BRAM 0% ,03, 02, 并且 人 有 一 个 
均匀 先 验 分 布 . 证 明 实现 模型 的 Gibbs 抽样 所 需 的 条 件 分 布 如 下 


4D] (A(t) nit) wnll a lie 
pE (7 ny) „(3 DSG 

1 pity) 
EI (uP 9.0) ~ (v (Ze n+ 5 ¥a) 

了 
(t+) 

(t+1) (t+1) „(t+1) dy Vij Ti 
了 \(u 7 uv) w(u(4 a Va}, 


3, 
sen vs = (442) : 


7.8 在 问题 7.7 中 , 要 求 在 两 个 参数 化 模型 中 实施 Gibbs 抽样 . 本 问题 是 要 比较 抽样 的 表现 . 


本 书 的 网 站 提供 了 关于 生产 颜料 彰 的 含水 量 的 数据 集 [52]， 在 颜料 的 批量 生产 中 ， 


需 对 每 批 颜 料 的 含水 量 做 分 析 检 验 ， 随 机 抽取 15 批 颜 料 , 分 析 其 数据 ,对 每 一 批 颜料 ， 
随机 抽取 两 个 独立 样本 , 每 个 样本 被 测量 两 次 . 在 以 下 的 分 析 中 , 令 of = 86, of = 58 
和 co2 = 1， 


实施 两 个 Gibbs 抽样 如 下 . 为 方便 比较 两 个 抽样 , 我 们 对 两 个 方案 采用 相同 的 选 代 


次 数 、 随 机 种 子 、 起 始 值 以 及 预 烧 期 . 


(a) 


(b 


(0) 


利用 对 问题 7.7(a) 的 Gibbs 抽样 来 分 析 数 据 ， 分 区 组 实施 抽样 。 例如 ，a = 
(a1,… ,aas) 为 一 个 区 组 , 其 中 因 其 条 件 分 布 相互 独立 , 可 同时 更 新 所 有 参数 . 在 
一 次 循环 中 以 一 种 确定 的 顺序 更 新 区 组 . 例如 , 依次 生成 uO, a, BO, 接着 生成 
pw, a), BO, 依次 类 推 . 

利用 对 问题 7.7(b) 的 Gibbs 抽样 分 析 数 据 ， 在 每 次 循环 中 以 一 种 确定 的 顺序 更 新 
区 组 来 实施 抽样 机 , 依次 更 新 pO, yO, nO, 接着 更 新 WO, yO, n, RKA. 
通过 对 上 述 方案 进行 下 面 的 诊断 , 比较 两 种 算法 的 表现 . 

i 在 去 除 预 烧 和 迭代 后 , 计算 所 有 参数 的 两 两 之 间 的 相关 性 . 

ii, 在 每 一 种 方案 中 选择 几 个 参数 并 对 每 个 参数 创建 其 自 相关 图 . 

你 也 可 以 考虑 用 其 他 诊断 方法 进行 比较 .对 于 本 问题 , 你 推荐 采用 标准 的 还 是 重新 
参数 化 的 模型 ? 
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MCMC 的 理论 和 应 用 快速 发 展 , 不 断 创新 ， 本 章 将 讨论 一 些 高 级 的 MCMC 
方法 并 应 用 MCMC 解决 一 些 具有 挑战 性 的 统计 问题 . 最 近 的 工作 大 多 集中 在 发 展 
Bayes 推断 方法 上 .8.1 一 8.3 节 介绍 了 在 Bayes 的 推断 中 的 辅助 变量 、 可 逆 跳 跃 以 
及 完美 抽样 方法 , 同时 这 些 抽样 方法 还 可 用 于 解决 其 他 问题 . 8.4 节 应 用 MCMC 方 
法 对 空间 或 图 像 数 据 做 Bayes 推断 . 8.5 节 讨论 了 MCMC 方法 在 极 大 似 然 估计 中 
的 应 用 . 


8.1 ”辅助 变量 方法 


MCMC 方法 发 展 的 一 个 重要 方面 是 辅助 变量 方法 ， 在 很 多 情况 中 , 如 Bayes 
空间 格子 模型 , 标准 的 MCMC 方法 由 于 充分 混合 的 时 间 太 长 而 不 适合 实际 应 用 ， 
此 时 , 有 一 种 补救 的 方法 是 增 大 我 们 感 兴趣 的 变量 的 状态 空间 . 此 方法 可 以 使 链 更 
快 混合 并 且 比 第 7 章 中 给 出 的 标准 方法 需要 更 少 调节 . 

此 处 我 们 继续 沿用 第 7 章 中 的 记号 , 令 X 为 一 随机 变量 , 在 其 状态 空间 中 , R 
们 模拟 一 条 马 氏 链 , 通常 用 其 估计 随机 变量 X 函数 的 期 望 , 其 中 X ~ f(a). 在 
Bayes 应 用 中 , 重要 的 一 点 是 要 记 住 在 MCMC 过 程 中 模拟 的 随机 变量 xO 通常 
为 参数 向 量 , 而 我 们 最 感 兴趣 的 是 它 的 后 验 分 布 . 考虑 某 可 估 但 不 易 抽样 的 目标 函 
Bef. 我 们 给 X 的 状态 空间 增加 辅助 向 量 U 的 状态 空间 来 构造 一 种 辅助 变量 算 
法 . 然后 我 们 在 联合 状态 空间 (X,U) 中 构造 一 条 马 氏 链 , 其 平稳 分 布 为 (X,U) ~ 
F(a, u), 将 平稳 分 布 边际 化 可 以 得 到 目标 分 布 f(z)， 当 模拟 完成 时 , 仅 根据 X 的 
边际 分 布 做 出 推断 . 例如 , y= / h(z)f(z)dw 的 蒙特 卡 罗 估计 为 严 = 2 SX"), 
其 中 (x, UO) 在 扩充 后 的 链 中 被 模拟 , 但 是 UO 被 去 除 . 

辅助 变量 MCMC 方法 是 在 统计 物理 学 的 文献 中 引入 的 [151, 526]. 这 种 方法 
的 潜在 用 途 引 起 Besag 和 Green 的 注意 , 并 且 很 多 这 种 方法 的 改良 策略 已 经 得 到 
了 充分 地 发 展 (35, 113, 286). 对 于 解决 在 其 他 领域 中 具有 挑战 性 的 统计 问题 , 增加 
我 们 感 兴趣 的 变量 不 失 为 一 种 有 效 方法 , 比如 在 第 4 章 中 给 出 的 EM 算法 以 及 在 
8.2 节 中 将 要 给 出 的 可 逆 跳 跃 算法 .对 于 EM 算法 与 MCMC 算法 中 辅助 变量 方法 
的 联系 将 在 [542] 中 作 进一步 的 探讨 . 
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下 面 我 们 给 出 模拟 回 火 作 为 说 明 辅 助 变量 方法 的 例子 . 另外 一 个 重要 的 例 

子 一 一 切片 抽样 将 在 8.1.1 节 中 讨论 ，8.4.2 节 给 出 了 辅助 变量 在 分 析 空 间或 图 
像 数据 中 的 应 用 . 
例 8.1 (模拟 回 火 ) 在 高 维 、 多 峰 或 MCMC 混合 缓慢 等 问题 中 , 可 能 需要 运行 极 
长 的 链 以 获得 感 兴趣 的 量 的 好 的 估计 . 模拟 回 火 方法 可 解决 这 一 问题 [206, 371]. 模 
拟 回 火 基于 一 系列 常见 样本 空间 上 的 非 规范 化 密度 fi i=l, ,m. 这 些 密度 被 
看 作 从 冷 (i = 0) 到 热 (i = m) 的 变化 . 我 们 通常 只 要 求 推断 冷 密度 , 同时 研究 其 
他 的 密度 以 提高 混合 性 . 事实 上 , 密度 应 该 设计 得 更 暖 一 些 , 以 便 MCMC 对 其 混 
合 的 速度 相 比 fi 而 言 更 快 . 

考虑 扩充 后 的 变量 (X, 1), 其 中 温度 为 随机 变量 , 其 先 验 分 布 为 了 ~ pli). 令 
起 始 值 为 (2(9),i()), 我 们 在 扩充 后 的 空间 中 构造 Metropolis-Hastings 抽样 机 如 下 . 

(1) 从 平稳 分 布 为 fo 的 链 中 利用 Metropolis-Hasting 或 Gibbs 更 新 方法 抽取 
XTi. 

(2) 从 提案 密度 g (hi) 中 生成 1*. 一 种 简单 做 法 为 


1， 如 果 (ii) = (1,2) BE (GO, #) = (m,m — 1), 
g (i i) = 4 1/2, WẸ jit — | =1 Bi € {2,.--,m-1}, 
0, 否则 . 


(3) 如 下 接受 或 拒绝 候选 值 1*. 定义 Metropolis-Hastings 比率 为 Rex(i, 
ri xO), 其 中 


fu(z)p(v)g(ulv 
Rel) = Fee tangle) 
并 且 以 概率 min{Rsr(i, 1, XY), 1} 接受 OD) = 7*. 否则 , 保留 当前 状态 的 
另外 一 个 副本 , 令 D = i, 

(4) 返回 第 1 步 . 

在 冷 分 布下 最 简单 的 估计 期 望 的 方法 是 将 由 冷 分 布 生成 的 值 平 均 , 同时 去 除 由 其 他 
fi 生成 的 值 . 为 更 充分 地 利用 这 些 数 据 , 注意 到 从 扩充 后 的 链 的 平稳 分 布 中 抽取 的 
状态 (a, i) 的 密度 与 f(z)p(i) 成 比例 . 因此 , 重要 性 加 权 w*(z) = /fs 可 用 来 
估计 关于 了 的 期 望 , 其 中 为 目标 密度 ; 见 第 6 章 . 

p 的 先 验 分 布 由 使 用 者 设 定 , 其 理想 的 选择 是 要 使 得 m 个 回 火 分 布 (B, 对 i 
而 言 有 m 个 状态 ) 被 访问 的 可 能 性 大 致 相等 . 为 使 所 有 的 回 火 分 布 在 可 接受 的 一 
段 运行 时 间 内 被 访问 ，m 必须 相当 小 ， 另 一 方面 , 每 对 相 邻 的 回 火 分布 在 扩充 后 
的 链 上 一 定 要 有 充分 的 重 登 , 才能 较 容易 地 从 一 个 分 布 移 向 到 另 一 个 分 布 . 而 这 就 
要 求 一 个 较 大 的 m. 为 平衡 这 两 方面 的 要 求 , 我 们 建议 m 的 选择 要 使 得 接受 率 在 
7.3.1 节 第 1 部 分 给 出 的 范围 之 内 . 对 此 问题 的 改进 、 推 广 及 相关 技术 在 [203, 206, 


(8.1) 
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297, 357, 409] 给 出 . 回 火 模拟 、 其 他 MCMC 和 重要 性 抽样 方法 的 关系 在 [367, 581] 
中 讨论 . 

我 们 可 由 第 3 章 的 模拟 退火 最 优 算法 联想 到 这 里 的 模拟 回 火 . 假设 在 9 的 状 
态 空间 中 进行 模拟 回 火 . 令 L0) 和 a0) 分 别 为 0 的 似 然 分 布 和 先 验 分 布 . 如 果 我 
们 令 A(O) = exp {1 log(q()LO)}}, 其 中 一 i 和 i 二 1,2,…, 则 i=1 将 冷 分 
布 与 6 的 后 验 分 布 联系 起 来 , 并 且 i > 1 产生 日 益 平坦 的 加 热 分 布 来 提高 混合 性 . 
(8.1) 式 使 我 们 想起 3.4 节 中 模拟 退火 算法 的 第 2 步 , 最 小 化 负 对 数 后 验 分 布 . 我 们 
之 前 已 经 注意 到 模拟 退火 在 寻找 最 优 值 的 过 程 中 生成 了 一 个 时 间 非 齐 次 的 马 氏 链 
(3.4.1 节 第 2 部 分 ). 而 模拟 回 火 同样 得 到 一 条 马 氏 链 , 只 是 模拟 回 火 并 不 像 模拟 退 
火 那样 系统 地 冷却 ,模拟 回 火 和 模拟 退火 两 个 过 程 都 使 用 了 暖 分 布 以 帮助 研究 状 
态 空间 . 
切片 抽样 机 


-项 重要 的 辅助 变量 MCMC 技术 称 为 切片 抽样 机 [113, 286, 410]. 对 一 元 变量 
X 考虑 使 用 MCMC 方法 , 其 中 X ~ f(z), 并 且 假设 从 f 中 不 能 直接 抽样 . 引进 一 元 
辅助 变量 U 使 我 们 可 以 考虑 目标 密度 , 其 中 (X,U) ~ f(w,u). f(u) = f(z)f(ulz) 
说 明 一 个 辅助 变量 Gibbs 抽样 方法 是 在 X 和 U 的 更 新 值 间 交替 进行 的 [286]. 此 
方法 的 关键 是 对 于 X 选择 一 个 加 速 MCMC 混合 的 变量 U. 在 切片 抽样 机 的 上 +1 
次 迭代 中 , 我 们 根据 下 式 交替 生成 XCD 和 UHD 


UDa ~ Unit (0, f (2®)) ; (8.2) 
XCD ~ Unif {z : f(x) > uD}, (8.3) 


图 8.1 说 明 上 述 方法 ， 上 图 表示 在 t+1 次 迭代 时 , 算法 从 rO 开始 .然后 从 
Unif (0, f(e)) 中 抽取 UCD, EA DOS BARE HAE. xD (u) = 
ul D) 从 而 使 得 flz) > uD 的 z 值 的 集合 中 均匀 抽取 . 下 图 对 应 沿 水 平 条 形 阴 
影 中 抽样 . 

在 本 例 中 , 我 们 可 直接 模拟 (8.3) R, 然而 在 其 他 设置 中 集合 {z : f(x) > utt} 
可 更 为 复杂 . 特别 地 , 如 果 不可逆, 则 (8.3) 式 中 的 抽样 XG+D| (VED = vlt+D) 
可 能 并 不 容易 . 一 种 实现 (8.3) 式 的 方法 是 采用 拒绝 抽样 的 方法 . 见 6.2.3 节 . 

例 8.2 ( 远 距离 峰之 间 的 移动 )” 当 目 标 分 布 是 多 峰 的 , 切片 抽样 机 的 一 个 优势 就 
越发 明显 ， 图 8.2 表示 一 个 一 元 多 峰 目 标 分 布 . 如 果 使 用 一 个 标准 的 Metropolis- 
Hastings 算法 生成 目标 分 布 的 样本 , 则 算法 可 找到 分 布 的 一 个 峰 . 然而 , 除非 提案 
分 布 调节 得 非常 好 , 寻找 分 布 的 其 他 峰 可 能 要 经 过 很 多 次 迭代 . 即使 找到 了 两 个 峰 ， 
也 几乎 不 可 能 从 一 个 峰 跳 到 另 一 个 峰 . 随 着 维 数 的 增加 , 该 问题 将 更 加 严重 . 反之 ， 
我 们 考虑 构造 切片 抽样 机 对 图 8.2 中 所 示 密 度 进行 抽样 .水 平 的 阴影 区 域 代表 在 
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(8.3) 中 定义 的 集合 , 其 中 XOD WO) 为 均匀 抽样 . 于 是 在 每 次 迭代 中 切片 抽样 
机 有 50% 的 可 能 从 一 个 峰 到 另 一 个 峰 . 因此 切片 抽样 机 将 用 少 得 多 的 迭代 次 数 使 
混合 性 更 好 . 口 


{e:f(a)>u"")} 
8.1 对 目标 分 布 f 的 一 元 切片 抽样 机 的 两 个 步 又 


f(a) 


图 8.2 针对 多 峰 目标 分 布 的 切片 抽样 机 ， 从 两 个 水 平 阴影 区 域 所 对 应 的 集合 中 均匀 地 抽取 


XD jy+) 


切片 抽样 机 已 被 证 明 有 很 好 的 理论 性 质 [398, 462), 但 将 其 应 用 于 实际 仍 存 
在 一 定 困难 [410, 460). 上述 基本 切片 抽样 机 方法 可 以 推广 到 包含 多 个 辅助 变量 
上 ,LA UR X 是 多 维 的 情况 [113, 286, 398, 462]. 同时 还 可 以 构造 一 种 切片 抽 
样机 算法 保证 抽样 取 自 马 氏 链 的 平稳 分 布 [83, 397]. 这 其 实 是 一 种 变化 的 完美 抽样 
机 , 对 完美 抽样 机 的 讨论 将 在 8.3 节 中 给 出 . 


8.2 ARE MCMC 


在 第 7 章 中 我 们 考虑 了 用 MCMC 方法 从 平稳 分 布 为 f 的 马 氏 链 中 模拟 XO, 
t = 1,2,…. 第 7 章 中 给 出 的 方法 要 求 XO 的 维 数 (BN, 其 状态 空间 ) 和 XW 的 
元 素 意义 不 随 t 而 改变 . 在 许多 应 用 中 , 我 们 感 兴趣 的 是 生成 一 条 链 , 允许 其 参数 
空间 的 维 数 从 一 次 迭 代 到 下 次 迭代 时 发 生 改 变 . Green 的 可 逆 跳 跃 马 氏 链 蒙 特 卡 罗 
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(RIMCMC) 方法 允许 马 氏 链 的 维 数 发 生变 化 [243]. 我 们 将 在 不 确定 的 Bayes 模型 
中 讨论 此 方法 . 对 于 RJMCMC 的 全 面 综述 在 被 引用 的 很 多 文献 中 都 可 以 找到 . 

考虑 构造 一 条 马 氏 链 寻 找 候选 模型 空间 , 其 中 每 一 个 候选 模型 都 可 用 来 拟 合 
AWE yv. $ MiMi 为 我 们 考虑 的 可 数 个 模型 的 集合 . 参数 向 量 Om 定义 
为 在 第 m 个 模型 中 的 参数 . 不同 的 模型 参数 个 数 可 能 不 同 , 于 是 我 们 令 pm 为 在 
第 m 个 模型 中 的 参数 个 数 .在 Bayes 范式 中 , 我 们 可 设想 随机 变量 X = (M, 0m) 
共同 作为 模型 的 编号 , 并 且 对 模型 进行 参数 推断 ， 我 们 可 以 给 这 些 参数 指定 先 验 
分 布 , 然后 使 用 MCMC 方法 对 其 后 验 分 布 进行 模拟 , 其 中 抽取 的 第 上 个 随机 变量 
XO = (MO, oho) 这 里 OY, AHR ARS MO 的 模型 的 参数 , 维 数 
puo 可 随 t 而 变化 . 

因此 , RIMCMC 的 目的 是 要 生成 联合 后 验 密度 为 f{(m, Only) 的 样本 . 由 Bayes 
定理 我 们 得 到 后 验 分 布 


f(m, Omly) x f(ylm, Om) f(Am|m) f(m), (8.4) 


其 中 f(y lm, Om) 表示 使 用 第 m 个 模型 及 其 参数 得 到 的 观测 数据 的 密度 ，7(gnlm) 
表示 第 mn 个 模型 中 参数 的 先 验 密度 ，/(m) 表示 第 m 个 模型 的 先 验 密度 . 先 验 密 
度 f(m) 的 权重 分 配给 第 m 个 模型 , 因此 有 3S fm) =1. 
分 解 后 验 分 布 a 
(rm, mly) = Fily) F Omlm, y) (85) 


可 见 如 下 两 个 重要 推断 ,其 一 , f(mly) 可 解释 为 第 m 个 模型 的 后 验 概率 , 并 可 规 
范 化 需要 考虑 的 所 有 模型 . 其 二 , (Omm, y) 是 第 m 个 模型 中 参数 的 后 验 密度 . 

对 于 在 不 同 维 数 参数 空间 模型 中 跳跃 的 X, RJMCMC 能 够 构造 合适 的 马 氏 
链 . 类 似 于 较 简单 的 MCMC 方法 ，RJMCMC 方法 持续 产生 从 当前 值 rz 到 xX" 
的 提案 步骤 , 然后 决定 接受 提案 值 或 是 保留 cO 的 另 一 个 副本 . 我 们 给 出 的 链 的 平 
稳 分 布 将 是 (8.5) 中 的 后 验 分 布 , 如 果 对 所 有 的 m 和 mo, 链 满足 


f (mi, Om |y)a(m2, Omalm, 9m, Y) = flm2, Omz|y)a(™1, Om |m2, Omz, Y), 


其 中 a(z2|z1,YY) 表示 t 时 刻 位 于 状态 £1 = (mi, Om,) 的 链 在 t+ 1 时 刻 移 向 状态 
z2 = (M2, Om) 的 密度 . 满足 这 种 具体 平衡 条 件 的 链 被 称 为 可 逆 的 , 因为 此 时 链 的 
运行 与 时 间 的 方向 无 关 . HERB XO AX) 维 数 不 同 则 链 不 可 逆 . 
RJMCMC 算法 的 关键 是 在 可 选 维 数 的 t 时 刻 和 t+ 1 时 刻 引 入 辅助 随机 变量 ， 
使 得 扩充 后 的 变量 ( 即 X 和 辅助 变量 ) 在 上 时 刻 和 + + 1 时 刻 有 相同 的 维 数 . 然后 
我 们 可 对 t 时 刻 保持 维 数 的 扩充 后 的 变量 构造 马尔 可 夫 转 移 . 在 一 定 的 接受 概率 
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下 , 这 种 维 数 匹配 的 方法 能 够 满足 时 间 可 逆 性 的 条 件 , 因此 可 以 使 马 氏 链 收敛 到 X 
联合 后 验 分 布 . 关于 链 的 极限 理论 的 细节 在 [244, 243] 中 给 出 . 

为 理解 维 数 匹配 方法 , 最 简单 的 做 法 是 首先 考虑 如 何 给 出 提案 参数 92, 使 其 对 
应 从 有 pi 个 参数 的 模型 Mi 到 有 p 个 参数 的 模型 M 的 提案 移动 , 其 中 ps > pi. 
一 种 简单 的 方法 是 从 关于 9; 和 独立 随机 元 素 Uy 的 函数 中 生成 92, 其 中 函数 不 可 
逆 且 是 确定 的 , 可 记 作 6。 = qs(91,U1). 对 于 反方 向 移动 的 提案 参数 可 通过 逆 变 
换 得 到 , (01,01) = gi3(92) = q1 (02). 注意 到 qo， 是 从 给 定 的 O 到 提案 9 的 一 
条 完全 确定 的 路 径 . 

现 推广 这 一 方法 在 给 定 从 当前 模型 m(0 BE M 的 提案 移动 下 , 生成 一 个 扩 
充 后 的 候选 参数 向 量 (0y 和 辅助 向 量 U7*). 对 于 9( 和 某 辅助 随机 变量 U 我 们 
可 以 应 用 不 可 逆 确 定 函数 q. 生成 


(Ou, U") = @,.(0,U), (8.6) 


其 中 U 由 提案 密度 hmÀ, 0, m) 生成 . 利用 辅助 变量 U" 和 U 是 为 了 在 t 时 
刻 马 氏 链 转移 过 程 中 保持 q. 的 维 数 , 之 后 辅助 变量 即 被 去 除 . 

当 pu- = pmo MY, (8.6) 中 的 方法 可 以 允许 使 用 常见 的 提案 策略 . 例如 , 利用 
(Oh U") = (0 +U,U) 可 获得 随机 游 动 , 其 中 维 数 为 py 的 U ~ N(0,027). 
另外 , 当 pu = pm- 时 , 采用 Oly. = qi,(U) 可 以 构造 Metropolis-Hastings 链 ， 
中 qi, 的 函数 形式 要 恰当 , 且 U 的 取 值 要 合适 . 此 时 不 需要 U" 来 使 维 数 相等 . 当 
puo < pw- 时 ，U 可 用 来 增加 参数 的 维 数 ; 是 否 需要 U 使 维 数 相等 , 取决 于 我 
们 采用 的 方法 . 当 puo > pxr- 时 则 不 需要 U MU: 例如 , 最 简单 的 降 维 方法 是 
将 90 的 某 些 元 素 分 给 U 并 将 剩余 的 分 给 Oye. 在 所 有 这 些 例子 中 , 反方 向 的 提 
案 可 以 从 qe. 的 逆 中 再 次 获得 . 

假设 链 当前 正 访问 模型 mO, 于 是 链 处 于 状态 sO = (mO, 09). 则 RIM- 
CMC 算法 的 下 一 次 迁 代 概括 如 下 . 

(1) 从 条 件 密度 为 g(.lm(9) 的 提案 密度 中 抽取 一 个 候选 模型 Mm. 候选 模 
型 要 求 参数 gw- 的 维 数 为 pu- 

(2) BAI M =m", 从 密度 为 (m9, 01%, mo") 的 提案 分 布 中 生成 扩充 后 的 
变量 U| (mO, 0am). & 


OmU) = gr: (9%,0), 


其 中 qu。 HA (02a, U) 到 (0%.,U") ATI AMBER AOR pct 
PU = Pm 十 DU， 
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(3) 对 于 提案 模型 ，M* = m 且 相应 提案 参数 值 为 9%., 计算 Metropolis- 
Hastings 比率 为 
FM, Ope ly)g(m lm) hu m", B%,-,m) 
Fm, 0Y Jom mO hlu, 0a, m”) 


ITO, (8.7) 


其 中 


dq, (0, a 
d(@, u) (0,u)=(0 U) f 


mit) 
以 1 和 (8.7) 式 中 的 最 小 值 为 概率 接受 到 模型 M* 的 移动 . 如 果 接 受 提案 , 则 令 
XO) = (M*,O},.). 否则 , 拒绝 抽取 候选 值 并 令 XD = oO, 

(4) RF U 和 Ur", 回 到 第 1 步 . 

(8.7) 式 中 的 最 后 一 项 是 变量 从 (9 外 ,UU) 到 (0%.,U") 变换 的 Jacobian $E 
阵 的 行列 式 的 绝对 值 . 如 果 pmo = pm-, W (8.7) 式 就 简化 为 (7.1) 式 中 标准 的 
Metropolis-Hastings 比率 . 注意 这 里 有 一 个 隐 含 的 假设 , 即 变换 qa 是 可 导 的 . 
例 8.3 (两 个 简单 峰之 间 的 跳跃 ) 对 上 面 给 出 的 算法 我 们 可 用 一 个 基本 的 例子 作 
为 说 明 [243, 460]. 考虑 一 个 有 K = 2 个 可 能 的 模型 的 问题 : 模型 M 有 一 个 一 
维 参数 空间 0, = a 且 模型 M2 有 一 个 二 维 参数 空间 gs = (0,7). 于 是 mm = 1 A 
pa = 2. $ m =1, m2 = 2. 

如 果 链 的 当前 状态 为 (1,91) 且 提案 模型 为 Mo, 则 由 提案 密度 h 生成 一 个 随机 
ER U ~ h(ull,@1,2). & 8 =a-U WR y=a4U, FÈ qı 2(a,u) = (a-u,a +u) 
并 有 || = 2. 


J(t) = 


(8.8) 


如 果 链 在 当前 值 (2, 02) 且 提 案 模型 为 Mi, 则 (a,u) = o,1(3,7) = (2, 857) 


为 可 着 映射 . 因此 esel = | FETE U 匹配 维 数 . 这 种 变换 完全 是 确定 的 ， 
因此 我 们 用 1 代替 (8.7) 式 的 hu*|2,62, 1). 
于 是 对 于 从 Ai 到 M2 的 提案 移动 , Metropolis-Hastings 比率 (8.7) 等 于 
f2,B.71¥ 92)  ; 
FQ, aY )g(2|1)h(u]1, 1,2) ~~ 
对 于 从 M2 到 M1 的 提案 移动 , Metropolis-Hastings 比率 等 于 (8.9) 式 的 倒数 . 口 
实施 RIMCMC 存在 几 个 重要 的 问题 . 由 于 维 数 可 能 很 大 , 关键 是 要 选择 一 个 
适当 的 提案 分 布 h 以 及 在 维 数 不 同 的 模型 空间 中 构造 有 效 地 移动 . 另外 一 个 问题 
是 对 于 RIMCMC 算法 收敛 性 的 诊断 . 这 方面 的 研究 在 [66, 67, 68] 中 给 出 . 
RJMCMC 是 一 种 非常 一 般 的 方法 , 且 可 逆 跳 跃 方法 在 各 种 应 用 中 都 得 到 了 发 
展 , 包括 模型 选择 , 线性 回归 中 的 参数 估计 [128], 广义 线性 模型 中 变量 和 连接 函数 


(8.9) 
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的 选择 [416], 混合 分 布 中 混合 成 分 个 数 的 选择 [68, 453, 481], 非 参数 回归 中 节点 的 
选择 和 其 他 应 用 [42, 141, 292] 以 及 图 像 模型 确定 [127, 218]. 还 有 许多 其 他 方面 应 
用 RJMCMC. 其 中 一 个 热点 问题 是 遗传 定位 [104, 547, 550]. 

RIMCMC 统一 了 用 于 比较 具有 不 同 参数 个 数 模型 的 早期 的 MCMC 方法 . 例 
如 , Bayes 模型 选择 和 线性 回归 分 析 中 模型 平均 的 早期 方法 , 如 随机 搜索 变量 选择 
[200] 和 MCMC 模型 复合 [445], 这 些 都 可 看 作 是 RIMCMC 的 特殊 例子 [101]. 


RIMCMC 选择 回归 变量 


考虑 一 个 多 重 线性 回归 问题 , 其 中 有 p 个 潜在 预测 变量 和 一 个 截 距 项 . 回归 中 
的 一 个 基本 问题 是 选择 一 个 合适 的 模型 . 令 mx 为 第 上 个 模型 , 由 第 个 到 第 ia 个 
预测 变量 定义 , 指标 (i1,--- ,ia} 是 {1,… ,可 的 子 集 . 我 们 要 考虑 p 个 预测 变量 的 
MATE, 因此 有 K = 2” 个 模型 . 这 里 用 一 般 的 回归 记号 , 令 Y 为 n 个 独立 响应 
的 向 量 . 对 任意 模型 me, 在 设计 矩阵 中 安排 相应 的 预测 变量 Xm = (1 wi, ++ zia)， 
其 中 zi 是 第 i 个 预测 变量 的 n 维 观测 向 量 . 假设 预测 数据 给 定 . 对 所 有 的 me, 
我 们 寻找 一 般 最 小 二 乘 模型 为 


Y = Xm Bm, +6 (8.10) 


其 中 Bm, 是 对 应 mx 设计 和 矩阵 的 一 个 参数 向 量 且 误差 方差 为 o?. 在 本 节 的 剩余 部 
分 中 , 都 以 假设 预测 数据 给 定 为 条 件 . 
所 谓 好 模型 的 概念 有 几 种 含义 . EA 3.2 中 , 我 们 用 AIC (Akaike information 
criterion) 准则 选择 最 好 的 模型 [7, 75]. 此 处 , 我 们 利用 Bayes 的 方法 作 变 量 选择 ， 
其 中 采用 回归 系数 和 o? 的 先 验 分 布 以 及 依赖 于 o? 的 系数 的 先 验 分 布 , 这 种 做 
法 的 最 直接 目的 是 选择 预测 变量 的 最 有 可 能 的 子 集 ， 而 同时 还 可 说 明 如 何 用 一 个 
RJMCMC 算法 的 输出 结果 估计 我 们 感 兴趣 的 量 , 诸如 后 验 模型 概率 、 每 个 模型 参 
数 的 后 验 分 布 以 及 各 种 感 兴趣 的 量 的 模型 平均 估计 ， 

根据 [101, 445] 实施 RIMCMC 算法 , 每 次 迭代 开始 于 模型 mO, 其 中 mO 由 
预测 变量 的 特定 子 集 表 示 . 为 推进 一 次 和 迭代, 提案 模型 要 求 比 当前 模型 多 一 个 或 者 
少 一 个 预测 变量 . 因此 模型 提案 分 布 为 9 (mO), 其 中 


工 ， 如 果 Me 比 mO 多 一 个 或 者 少 一 个 预测 变量 ， 
g (mim) = P 
0， 否则 . 

给 定 一 个 提案 模型 M* = m*, RJMCMC 算法 的 第 2 步 需要 我 们 抽取 U| 
(mi, om) ~h (mO. Rom). 一 种 简化 的 算法 是 令 U 为 参数 向 量 的 下 
一 个 值 , 此 时 我 们 可 以 令 提 案 分 布 h 等 于 pnm y) 的 后 验 分 布 , 即 (Bmlm y) 


188 第 8 章 MCMC 中 的 深入 论题 


对 于 适合 的 共 思 e 先 验 , -| (M, y) 服从 非 中 心 化 的 t 分布 [52]. 我 们 从 提案 分 布 中 
抽取 U H Bn = U, U = 6%. 因此 gu- = (oU) = (Br: U*); Jacobi 
行列 式 为 1. 由 于 g(m®|m*) = g(m*|m®) = 1/p, (8.7) 式 中 的 比率 经 化 简 后 可 
写 为 


F (UI Brae) F (Bnl) Fm) fF (Bolme) f (ujm) fim) 
F (vlm®, 62.) F (Bomo) F mO) F (Balmy) F ORO) Fm) 
(8.11) 
这 里 f (ylm*) 为 边际 似 然 函 数 , f(m) 为 模型 m* 的 后 验 密度 . 通过 观察 可 知 这 一 
比率 不 依赖 于 B%. 或 Ba. 因此 , SAFER RUTTEN, 我 们 可 将 B 的 
提案 和 接受 值 看 作 是 单纯 概念 上 的 构造 , 这 只 是 为 了 在 RJMCMC 方法 中 说 明 其 算 
法 . 换言之 , 不 需要 去 模拟 pO mO, 因为 我 们 可 以 得 到 (Pm, y) 的 显 式 表达 式 . 
后 验 模型 概率 和 f(Blm,y) 可 以 完全 确定 联合 后 验 分 布 . 

实施 RIMCMC 算法 后 , 很 多 我 们 感 兴趣 的 量 都 可 进行 推断 . 例如 , 由 (8.5) 式 
后 验 模型 概率 f(mxly) 可 通过 链 访 问 第 个 模型 的 次 数 与 链 迭 代 的 次 数 之 比 近似 . 
这 些 可 估 的 后 验 模型 概率 可 用 于 选择 模型 . 此 外 , RJMCMC 算法 的 输出 结果 还 可 
用 于 实现 Bayes 模型 平均 . 例如 , WR y 是 某 个 我 们 感 兴趣 的 量 , 如 预测 值 、 行 为 
过 程 的 作用 或 是 一 个 效应 的 大 小 , 则 在 给 定数 据 的 条 件 下 ， 的 后 验 分 布 为 


K 
Fuly) = 》 fulme, y)f (msly). (8.12) 
tst 


这 就 是 对 每 个 模型 u 的 后 验 分 布 的 平均 , 其 加 权 为 后 验 模型 概率 . 我 们 已 证 明 考虑 
模型 形式 的 不 确定 性 可 避免 低估 不 确定 性 [289]. 
例 8.4 (棒球 薪水 , 续 ) ”回顾 例 3.3, 在 棒球 运动 员 薪 水 的 线性 回归 模型 中 , 我 们 在 
27 个 可 能 的 预测 变量 中 寻找 最 佳 子 集 . 之 前 的 目标 是 计算 最 小 AIC 值 寻找 最 佳 子 
集 . 这 里 , 我 们 通过 具有 最 高 后 验 模型 概率 的 模型 寻找 最 佳 子 集 . 

我 们 在 模型 空间 中 采用 均匀 先 验 分 布 , 对 每 一 个 模型 令 f(m) = 2-?. 对 于 其 
他 参数 , 我 们 采用 正 态 - 伽 玛 共 扼 类 先 验 分 布 其 中 Bm, Me ~ N (Am 0V m) 且 
vA/o? ~ x2. 在 这 种 构造 下 , (8.11) 中 的 f(ylmx) 可 被 证 明 为 非 中 心 t 密度 (问题 
8.1). 对 于 棒球 数据 , 其 超 参 数 设 定 如 下 . 首先 , > v = 2.58 和 入 = 0.28. BPR, 
am, = (8 ,0,… ,0) 是 长 为 pm, 的 向 量 , 其 中 第 一 个 元 素 等 于 全 模型 的 截 距 的 最 小 
二 乘 估计 . 最 后 , V ,为 对 角 和 矩阵 , 对 角 元 素 为 (33,c?/s?,… ,c?/s3), 其 中 s3, Ay 
的 样本 方差 , s? 为 第 i 个 预测 变量 的 样本 方差 , 并 且 c = 2.58. 其 他 细节 在 [445] 中 
给 出 . 

我 们 运行 200 000 次 迭代 . 表 8.1 给 出 了 概率 最 大 的 后 验 模型 中 的 5 个 . 如 果 
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目的 是 选择 最 好 的 模型 , 则 应 选择 预测 变量 为 3, 8, 10, 13 和 14 的 模型 , 这 些 标号 
对 应 的 预测 变量 在 表 3.2 中 给 出 . 


表 8.1 ”关于 棒球 例子 的 RIMCMC 模型 选择 结果 : 后 验 模型 概率 (PMP) 最 高 的 5 个 
模型 .黑色 的 圆 点 表示 在 给 定 的 模型 中 相应 的 预测 变量 , 标号 对 应 的 预测 变量 在 表 
3.2 中 给 出 
预测 变量 
10 13 14 24 PMP 
0.22 
0.08 
0.05 
0.04 
. 0.03 


. 
2 0 > o o|o 
. . .. o 
.... o 


R 8.2 中 给 出 后 验 效应 概率 P(8; 关 Oly) AF 0.10 的 预测 变量 . 每 个 元 素 都 
是 示 性 变量 的 加 权 平均 , 其 中 只 有 当 系 数 在 模型 中 时 , 示 性 变量 等 于 1, 其 中 加 权 对 
应 (8.12) 式 中 的 后 验 模型 概率 . 结果 表明 , 自由 球员 、 仲 裁 地 位 以 及 跑 进 侄 的 次 数 
很 大 程度 上 决定 垒球 运动 员 的 薪金 . 


表 8.2 ”棒球 例子 中 的 RIMCMC R: AF 0.01 的 估计 的 后 验 效应 概率 P(A: Oly). 
标号 对 应 的 预测 变量 在 表 3.2 中 给 出 


标号 预测 变 最 P(A: # Oly) 
13 自由 队员 1.00 
14 仲裁 1.00 
8 击 球 跑 全 得 分 0.97 
10 三 击 未 中 出 局 0.78 
3 BAK 0.55 
4 安打 数 0.52 
25 SBsxOBP 0.13 
24 SOsx 失误 0.12 
9 Ba 0.11 
通过 变换 (8.12) 式 还 可 计算 我 们 感 兴趣 的 其 他 量 , 如 每 个 回归 系数 的 模型 平 
均 后 验 期 望 和 方差 , 或 者 各 种 后 验 薪金 的 预测 . 口 


还 有 一 些 其 他 的 方法 模拟 维 数 不 等 的 马 氏 链 . Stephens 根据 连续 时 间 的 马尔 可 
夫 生 灭 过 程 提出 一 种 很 有 希望 的 方法 [517]. 该 方法 通过 点 过 程 对 参数 建 模 . Green 
的 RJMCMC 和 Stephens 的 生 灭 过 程 之 间 的 联系 在 [78] 中 提 及 . 有 一 个 RIMCMC 
算法 的 一 般 形 式 可 将 许多 现存 的 评估 参数 空间 维 数 不 确定 性 的 方法 统一 起 来 [230]. 
这 些 问 题 将 很 有 可 能 被 持续 关注 并 得 到 快速 的 发 展 . 
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8.3 完美 抽样 


由 于 MCMC 方法 在 第 t 次 迭代 时 产生 一 个 随机 抽样 XO 当 t 一 co 时 其 分 
布 近似 于 目标 分 布 f, 因此 MCMC 方法 十 分 有 用 . 因为 实际 中 运行 长 度 有 限 , 在 近 
似 非常 好 的 情况 下 第 7 章 关 于 评价 方法 给 出 了 很 多 讨论 . 例如 , 7.3 节 给 出 了 确定 
运行 长 度 和 去 除 的 迭代 次 数 ( 即 预 烧 ) 的 方法 . 然而 , 这 些 收敛 性 的 诊断 都 有 各 种 
各 样 的 缺点 ， 完 美 抽 样 算法 通过 生成 有 确切 平稳 分 布 的 链 解决 了 所 有 问题 . 这 看 
上 去 效果 相当 不 错 , 但 在 实现 上 却 有 一 定 的 困难 . 


历史 数据 配对 法 


Propp 和 Wilson 给 出 了 一 种 完美 抽样 MCMC 算法 ， 称 为 历史 数据 配对 法 
(CFTP) [438]， 在 [81, 144, 437] 中 包含 着 其 他 关于 CFTP 的 研究 . 在 Wilson 的 
网 站 上 可 找到 关于 CFTP 的 大 量 早期 文献 和 相关 方法 [568]. 

CFTP 方法 源 于 一 种 说 法 , 即 链 的 起 始点 为 t= -co 并 向 上 = 0 运行 . 当 这 种 
说 法 成 立时 , 收敛 不 会 在 从 = -1 到 t = 0 的 步骤 中 突然 发 生 , 在 计算 时 你 不 需 
要 设法 令 t= -oo. 相反 , 我 们 要 寻找 一 个 从 t= 7 < 0 到 t=0 的 时 间 窗 , 使 其 与 
7 以 前 的 状态 无 关 , HE r 之 前 的 链 的 无 限 长 的 过 程 意味 着 链 在 0 时 刻 达 到 平稳 
分 布 . 

这 种 方法 在 外 部 看 起 来 是 合理 的 , 而 实际 中 不 可 能 知道 链 在 7 时 刻 位 于 什么 
状态 ， 因 此, 我 们 必须 考虑 多 重 链 : 事实 上 , 一 条 链 在 r 时 刻 可 以 在 每 一 个 可 能 的 
状态 开始 . 每 条 链 可 以 从 t= r 向 + = 0 运行. 由 这 些 链 的 马尔 可 夫 性 质 , 链 在 + 十 1 
时 刻 的 结果 仅 依赖 于 它们 在 r 时 刻 的 状态 . 所 以 这 些 链 的 集合 完全 代表 了 所 有 可 
能 从 过 去 无 穷 远 运行 来 的 链 . 

接 下 来 的 问题 是 我 们 现在 不 再 仅 考虑 单一 一 条 链 , 而 且 在 0 时 刻 开始 的 链 似 乎 
有 所 不 同 . 我 们 依靠 配对 的 想法 解决 这 一 多 重 性 问题 . 如 果 在 相同 状态 空间 有 相同 
转移 概率 的 两 条 链 在 t 时 刻 有 相同 的 状态 , 则 两 条 链 在 t 时 刻 配对 (或 者 接合 ). 在 
这 一 时 刻 , 由 马尔 可 夫 性 质 和 相等 的 转移 概率 , 两 条 链 有 相同 的 概率 性 质 . 第 三 条 
这 样 的 链 可 以 在 t 时 刻 或 者 以 后 的 任意 时 刻 和 这 两 条 链 配 对 . 这 样 , 为 消除 上 述 引 
入 的 多 重 链 , 我 们 使 用 的 算法 要 保证 一 旦 将 链 配对 , 他 们 要 得 到 相同 的 样本 链 . 进 
一 步 地 , 要 求 所 有 链 到 0 时 刻 必须 配对 . 因此 这 种 算法 产生 的 一 条 链 从 0 时 刻 开始 
均 服从 我 们 希望 的 平稳 分 布 . 

为 简化 表示 , 假设 X 为 一 维 且 有 个 有 限 状态 空间 . 下 面 给 出 对 CFTP 方法 
的 最 一 般 和 必要 的 假设 . 

考虑 一 个 遍历 马 氏 链 , 它 有 确定 的 转移 法 则 4 来 更 新 马 氏 链 的 当前 值 2 中 , 而 
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oO 是 某 些 随机 变量 UD 的 函数 . 因此 ， 
XOD = g(a, Ue), (8.13) 


例如 , 来 自 一 个 Metropolis-Hastings 提案 的 累积 分 布 函数 F 可 以 用 g(a, u) = F(u) 
生成 , 而 一 个 随机 游 动 提案 可 以 由 g(a, u) = 2 +u 生成 . 在 (8.13) P, 我 们 使 用 一 
个 一 元 变量 UO), 但 更 一 般 地 , 链 的 转移 可 由 多 元 向 量 UUD 所 控制 . 今后 我 们 
将 采用 一 般 的 形式 . 

CFTP 在 状态 空间 的 某 一 时 刻 r < 0 从 每 个 状态 开始 一 条 链 并 且 每 条 链 向 由 
q 产生 的 提案 值 移动 . 利用 标准 Metropolis-Hastings 比率 接受 提案 . 我 们 的 目标 是 
寻找 一 个 起 始 时 刻 r 使 得 当 从 t= r 按 步 骤 运 行 时 , 链 在 t= 0 时 刻 全 部 配对 . 这 
种 方法 从 我 们 希望 得 到 的 平稳 分 布 f 中 抽出 一 个 XO. 

下 面 给 出 寻找 + 和 得 到 我 们 希望 的 链 的 算法 . 令 XO 为 起 始 于 状态 的 马 氏 
PATE t 时 刻 的 随机 状态 , 其 中 大 = 1,… ,K. 

(1) 令 r = -1. 生成 UO. 在 -1 时 刻 状态 空间 的 每 一 个 状态 下 开始 一 条 链 ， 


即 zi ,… ak), 并且 每 条 链 向 0 时 刻 运行 , 其 更 新 值 为 XO = qa (zh a) UO), 
k=1, 0, K. 如 果 所 有 K REE 0 时 刻 有 相同 的 状态 , 则 链 完成 配对 且 XO 抽 
WE f; 算法 停止 . 


(2) 如 果 链 没有 配对 , WE r= -2. 生成 UC, 在 -2 时 刻 状 态 空 间 的 每 一 个 
状态 下 开始 一 条 链 , 并 且 每 条 链 向 0 时 刻 运行 . 为 此 , 令 xE = 9 (af, u). 
接 下 来 , 重新 使 用 在 第 1 步 中 生成 的 UO, 有 XP = 9(20,U). 如 果 所 有 K 
条 链 在 0 时 刻 有 相同 的 状态 , 则 链 完成 配对 且 XC 抽取 自 /; 算法 停止. 

(3) 如 果 链 没有 配对 , 将 起 始 时 刻 向 后 移 至 时 刻 + = -3 并 且 更 新 如 上 . 我 们 
继续 将 链 的 起 始 时 刻 后 移 一 步 并 且 向 0 时 刻 运行, 直到 r 时 刻 开始 链 时 , 到 t= 0 
时 刻 所 有 K 条 链 痢 完 成 配对 ， 此 时 算法 停止. 在 每 次 尝试 下 ,随机 更 新 变量 必须 
要 重复 使 用 特别 地 , 当 在 r 时 刻 开始 链 时 ,要 再 次 使 用 之 前 抽取 的 随机 数 更 新 
UCHD UO)... UO. 还 要 注意 的 是 在 第 t 次 选 代 时 更 新 所 有 K 条 链 使 用 的 
是 相同 的 UO. 

Propp 和 Wilson 指出 对 于 适合 的 w，CFTP 算法 返回 的 XO 值 是 马 氏 链 的 平 
稳 分 布 的 随机 变量 的 实现 , 并 且 配对 值 将 在 有 限 的 时 间 内 产生 [438]. 即使 在 0 时 
刻 前 所 有 链 都 配 成 对 , 也 必须 用 x 作为 完美 抽样 , 否则 会 产生 抽样 的 偏差 

从 了 中 获得 完美 抽样 XO 对 于 大 部 分 应 用 而 言 还 是 不 够 的 ， 通 常 我 们 想 要 
来 自 7 的 ”个 独立 同 分 布 的 样本 作 模拟 或 者 用 于 某 些 期 望 的 Monte Carlo 估计 ， 
p= | MOSEA. 一 个 来 自 f 的 完美 独立 同 分 布 的 样本 可 以 通过 运行 n 次 CPTP 
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算法 对 XO 生成 ”个 独立 的 值 来 获得 . 如 果 只 想 确定 算法 抽样 取 自 f, 而 不 要 求 
独立 性 , 则 可 以 运行 CFTP 一 次 并 且 从 t = 0 时 刻 的 状态 出 发 继续 运行 此 链 . 第 
一 种 选择 可 能 更 可 取 , 而 第 二 种 在 实际 中 却 可 能 更 合理 , 特别 是 对 于 在 完成 配对 前 ， 
CFTP 算法 需要 很 多 次 迭代 的 情况 .对 于 使 用 完美 抽样 算法 我 们 只 有 两 种 最 简单 
的 方法 , 见 [404] 及 [568] 中 的 参考 文献 . 
例 8.5 (在 小 状态 空间 中 的 样本 路 径 ) ”用 图 8.3 表示 本 例 的 三 个 可 能 状态 s1, 52, ss. 
EIR 1 F, Ær = -1 时 刻 从 三 个 状态 出 发 ， 选 择 一 个 随机 更 新 VO, 并 且 
XO = q (sk,U()) ,k= 1,2,3. 在 t= 0 时刻 路 径 没有 完全 配对 , 于 是 算法 进行 迭代 
2. 在 迭代 2 中 , 算法 在 r = -2 时 刻 开始 . 从 t= -2 到 t= -1 步 的 转移 法 则 基于 
一 个 更 新 抽样 变量 UCD. 而 从 t= -1 到 t+= 0 步 的 转移 法 则 要 依靠 之 前 在 迭代 1 
中 获得 的 UO). t = 0 时 刻 路 径 没有 完全 配对 , 于 是 算法 进行 迭代 3. 在 这 里 , 要 再 
次 使 用 之 前 抽取 的 UO) AUD 并 且 选 出 新 的 UCD. 在 迭代 3 中 , 在 上 = 0 时刻 ， 
所 有 三 条 样本 路 径 到 达 状 态 s2, 因此 路 径 完 成 配对 , 同时 XO = s2 为 平稳 分 布 A 


的 抽样 . 


-3 -2 -1 0 -3 -2 o 0 -3 -2 rt 0 


图 8.3 完美 扫 样 的 拍 入 路 入 示例 见 例 8.5 ers 


几 个 CFTP 优化 的 细节 实现 了 前 面 提 到 的 优点 . 首先 , 注意 到 CFTP 需要 再 
次 用 到 之 前 生成 的 变量 UO, 并 且 在 t 时 刻 共同 使 用 相同 的 U( 的 实现 来 更 新 所 
有 的 链 . 如 果 UO 没有 被 再 次 使 用 , 样本 将 是 有 偏 的 . Propp 和 Wilson 用 实例 说 
明 在 每 一 时 刻 重新 生成 U0 会 使 链 偏向 有 序 状态 空间 中 的 极端 状态 [438]. 对 历史 
UO 的 再 利用 和 共享 使 得 在 任何 ~ < 7 时 刻 开始 的 所 有 链 到 t= 0 时 刻 都 可 以 配 
成 对 , 其 中 r 是 由 CFTP 选择 的 起 始 时 刻 . 并 且 这 种 做 法 使 得 在 给 定 的 运行 下 , 所 
用 这 些 链 的 0 时 刻 的 配对 状态 都 相同 , 这 就 可 以 证 明 CFTP 生成 了 一 个 来 自 f 的 
确切 分 布 . 
其 次 , CFTP 导致 了 7 和 XO 之 间 的 相关 性 . 因此 , 如 果 在 确定 配对 时 刻 之 前 
提前 终止 一 次 CFTP 运行 , 则 可 能 导致 有 偏 . 假设 一 个 CFTP 算法 运行 了 很 长 的 
时 间 , 其 间 没 有 发 生 配 对 . 如 果 计 算 机 故障 或 者 缺乏 耐心 的 使 用 者 终止 并 重新 开始 
算法 寻找 配对 时 间 , 则 一 般 会 使 得 抽样 偏向 那些 较 早出 现 配对 的 状态 . 为 避免 这 一 
问题 , [169] 设计 了 一 种 可 供 选择 的 完美 抽样 方法 , 称 为 Fill 算法 . 

再 次 , 我 们 在 CFTP 算法 的 描述 中 对 于 连续 CFTP 迭代 用 到 了 一 列 起 始 时 
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Ñ r= -1,- . 在 很 多 问题 中 这 是 有 效 的 . 然而 使 用 序列 r = -1,-2,-4,-8, 
—16,. ere 因为 这 样 做 可 以 最 小 化 所 需 的 模拟 中 表现 最 差 的 步骤 的 数量 ， 
并 且 近 似 最 小 化 所 和 需 步 邓 的 期 记 数 量 [438]. 

最 后 , 如 果 链 从 t = 0 时 刻 向 前 运行 代替 向 后 运行 , 则 配对 策略 似乎 仍然 适 
而 实际 情况 并 非 如 此 . 要 理解 原因 , 需 考虑 一 条 马 氏 链 在 某 一 状态 o 有 唯一 的 前 
身 . of 不 可 能 出 现在 首次 配对 的 随机 时 刻 WR z' 出 现 , 则 链 一 定 在 早 些 时 候 已 经 
配对 , 因为 所 有 的 链 一 定 到 过 先前 的 状态 . 因此 在 首次 配对 时 刻 链 的 边缘 分 布 中 x 
的 概率 为 0, 并 且 因 此 不 能 成 为 平稳 分 布 . 虽然 这 种 向 前 配对 的 方法 行 不 通 , 但 对 于 
只 按时 间 向 前 运行 的 马 氏 链 [567], 仍 有 一 种 巧妙 的 方法 改变 CFTP 的 构造 而 生成 
一 个 完美 抽样 算法 [567]. 
随机 单调 性 和 夹层 法 

当 状 态 空间 很 大 或 是 无 限 状 态 (如 , 连续 的 ) 空间 的 一 条 链 应 用 CFTP 时 , 监 
控 从 状态 空间 的 所 有 可 能 元 素 出 发 的 样本 路 径 在 0 时 刻 是 否 配对 有 一 定 的 困难 . 然 
而 , 如 果 状 态 空间 依照 某 种 方法 排序 使 得 确定 的 转移 法 则 q 保持 状态 空间 的 序 , 那 
么 样本 路 径 只 能 开始 于 最 小 状态 并 且 只 需要 监控 排序 中 的 最 大 状态 . 

令 x,y E 5 为 一 条 马 氏 链 的 任意 两 个 可 能 的 状态 , 其 中 5 可 能 是 一 个 很 大 的 
状态 空间 .正式 地 , 称 5 为 自然 按 分 量 方式 偏 序 , 如 果 mi <y i=l, n, 则 
x <y, ŽE x,y e s. 当 z 和 3 时 ,如 果 对 所 有 U 有 qla, u) < gly u), 则 对 于 此 偏 
序 , 转移 法 则 q 是 单调 的 . 现在 , 如 果 存 在 状态 空间 S 的 最 小 和 最 大 元 素 , 对 所 有 
的 ze SH amin < T< zmax 并 且 转 移 法 则 9 是 单调 的 , 则 使 用 法 则 q 的 MCMC 
过 程 在 每 个 时 刻 都 保持 状态 的 序 . 因此 , 使 用 单调 转移 法 则 的 CFTP 只 要 模拟 两 条 
链 就 可 以 实现 : 一 条 起 始 于 amin, 另 一 条 起 始 于 zmax. 起 始 于 其 他 状态 的 链 的 样 
本 路 径 被 夹 在 起 始 于 最 小 和 最 大 的 状态 的 路 径 之 间 . 当 起 始 于 最 小 和 最 大 的 状态 
的 路 径 在 0 时 刻 配对 时 , 就 可 以 保证 所 有 其 他 中 间 的 链 配 成 对 ， 因 此 , 在 上 = 0 时 
刻 ，CFTP 抽样 取 自 平稳 分 布 . 很 多 问题 都 满足 这 些 单调 性 质 , 其 中 一 例 在 8.4.3 节 
中 给 出 . 

针对 有 些 问题 中 没有 这 种 单调 性 的 形式 , 相应 出 现 了 一 些 其 他 相关 的 方法 [399， 
403, 567). 大 量 的 工作 集中 在 研究 方法 将 完美 抽样 应 用 到 特殊 问题 中 ， 如 完美 
Metropolis-Hastings 独立 链 [105], 完美 切片 抽样 [397], 和 Bayes 模型 选择 的 完美 
抽样 算法 [295, 486]. 

完美 抽样 法 是 目前 非常 活跃 的 领域 , 此 处 提 到 的 很 多 想法 已 经 展开 了 进一步 的 
深入 研究 . 被 认为 大 有 潜力 的 完美 算法 仍 没有 被 广泛 应 用 于 容量 较 实 际 的 问题 . 不 
过 , 完美 抽样 算法 极 具 吸 引力 的 性 质 以 及 在 此 领域 的 不 断 研究 将 很 有 可 能 激发 新 的 
解决 实际 问题 的 MCMC 算法 . 
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8.4 Fl: 马尔 可 夫 随 机 域 上 的 MCMC 算法 


本 节 介 绍 马 尔 可 夫 随 机 域 模型 的 Bayes 分 析 , 着 重 对 空间 或 者 图 像 数据 进行 分 
析 . 此 课题 对 本 章 中 讨论 的 很 多 方法 给 出 了 有 趣 的 例子 . 

一 个 马尔 可 夫 随 机 域 对 于 参考 的 空间 随机 变量 指定 了 概率 分 布 . 马尔 可 夫 随 
机 域 相当 广泛 并 且 可 用 于 很 多 格子 型 结构 , 如 正规 的 长 方形 , 六 角形 和 不 正规 的 网 
格 结构 [110, 539]. 还 有 很 多 用 马尔 可 夫 随 机 域 建构 的 复杂 问题 , 我 们 在 此 不 作 研 
究 ，Besag 关于 空间 统计 量 和 图 像 分 析 中 的 马尔 可 夫 随 机 域 发 表 了 大 量 关键 的 论 
文 , 包括 他 经 典 的 1974 年 的 文章 [29, 30, 34, 35, 36, 37]. 此 外 关于 马尔 可 夫 随 机 域 
的 全 面 介绍 在 [110, 329, 353, 569] 中 给 出 . 

为 简单 起 见 , 我 们 这 里 主要 考虑 马尔 可 夫 随 机 域 在 正规 长 方形 格子 中 的 应 用 . 
例如 , 我 们 可 在 一 幅 地 图 上 或 者 图 像 上 覆盖 一 个 长 方形 格子 并 且 标 注 格子 中 的 每 一 
个 像素 或 单元 . 格子 中 第 i 个 像素 的 值 记 为 z;，i = 1,… ,n, 其 中 n 是 有 限 的 . 我 
们 关注 二 元 随机 域 , 其 中 ri 只 能 取 0 和 1 两 个 值 ，i = 1,… ,n. 我 们 可 以 直接 推 
广 这 种 方法 到 zi 是 连续 的 或 者 可 以 取 两 个 以 上 离散 值 的 情况 [110]. 

令 zs, 为 在 像素 i 附近 像素 的 z 值 的 集合 . 定义 为 5 的 像素 称 为 像素 i 的 邻 
域 . 像素 ri 不 在 5 中 . 一 个 正确 的 邻 域 定义 需要 满足 的 条 件 是 如 果 像 素 i 为 像素 
5 的 邻 点 , 则 像素 ; 为 像素 i 的 邻 点 . 在 长 方形 的 格子 中 , 一 阶 邻 域 为 我 们 感 兴趣 
的 像素 附近 垂直 方向 和 水 平方 向 的 像素 集合 ( 见 图 8.4). 二 阶 邻 域 还 包括 像素 附近 
对 角 线 方向 的 像素 . 


图 8.4 画 阴影 的 像素 表示 长 方形 格子 中 的 一 阶 和 二 阶 像素 


假设 第 i 个 像素 的 值 r 是 随机 变量 X; 的 实现 . 一 个 局 部 依赖 的 马尔 可 夫 随 
机 域 规定 在 给 定 其 他 像素 X: 的 条 件 下 的 X: 的 分 布 仅 依赖 于 相 邻 像素 . 因此 ， 
HF Xi = zc- 

f (zilz-i) = f (zilzs.), (8.14) 
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i=l; ,n. 假设 每 个 像素 在 等 于 0 或 1 时 有 非 零 概率 , 这 就 意味 着 满足 所 谓 的 正 
条 件 : X 的 最 小 状态 空间 等 于 其 成 分 的 状态 空间 的 笛 卡 尔 乘积 . 正 条 件 可 以 使 得 
本 节 中 后 面 考虑 的 条 件 分 布 有 定义 . 

Hammersley-Clifford 定理 证 明 (8.14) 中 的 条 件 分 布 可 以 一 起 指定 X 的 联合 
分 布 到 达 一 个 规范 化 的 常数 [29]， 在 我 们 的 离散 二 元 状态 空间 中 , 这 个 规范 化 常 
数 为 f(z) 取 遍 状态 空间 所 有 z 的 和 . 由 于 其 中 的 项 数目 很 多 , 故 该 和 一 般 不 能 通 
过 直接 计算 得 到 .即使 对 于 不 现实 的 包含 40 x 40 像素 的 小 图 像 , 在 和 式 中 仍 有 
21 600 — 4.4 x 10481 个 项 , 其 中 像素 取 两 个 值 . 尽管 有 上 述 困 难 ，Bayes MCMC 方 
法 还 是 对 于 图 像 推断 提供 了 一 个 Monte Carlo 基础 . 下 面 给 出 对 于 马尔 可 夫 随 机 域 
模型 进行 MCMC 分 析 的 几 种 方法 . 


8.4.1 马尔 可 夫 随 机 域 的 Gibbs 抽样 


首先 , 通过 采用 一 个 Bayes 模型 分 析 一 个 二 元 马尔 可 夫 随机 域 . 在 前 面 对 马尔 
可 夫 随机 域 的 介绍 中 , 我 们 使 用 ri 定义 第 i 个 像素 的 值 . 此 处 令 Xi 为 第 i 个 像素 
的 未 知 的 真实 值 , 其 中 X; 可 以 作为 Bayes 范式 中 的 一 个 随机 变量 . 令 yi 为 第 i 个 
像素 的 观测 值 . 因此 X 是 一 个 参数 向 量 ,，y 是 数据 . 在 图 像 分 析 的 应 用 中 ，y 为 退 
化 的 图 像 而 X 为 未 知 的 真实 图 像 . 在 植物 或 者 动物 种 群 分 布 的 图 形 中 应 用 空间 统 
th, yi = 0 可 以 表明 抽样 过 程 中 在 像素 i 的 位 置 没 有 观测 到 种 群 并 且 xX, 可 以 表示 
在 像素 i 的 位 置 上 种 群 出 现 或 未 出 现 的 真实 的 情况 (并 无 观测 ). 

有 三 个 假设 是 表述 这 种 模型 的 基础 . 首先 , 假设 在 给 定 真实 像素 值 的 条 件 下 观 
测 是 相互 独立 的 . 因此 当 X =a 时 ，Y 的 联合 条 件 密度 为 


Ff (yi syne zn) = [LF wiles), (8.15) 
i=1 


其 中 f (oilzi) 是 给 定 真实 值 条 件 下 , 像素 i 中 观测 数据 的 密度 . 于 是 , 作为 z 的 函 
数 的 (8.15) 式 为 似 然 函 数 . 其 次 , 我 们 采用 一 个 局 部 依赖 马尔 可 夫 随 机 域 (8.14) R 
对 真实 图 像 建 模 . 最 后 , 我 们 按照 前 面 的 定义 , 假设 正 条 件 . 

模型 中 的 参数 为 1,… ,zn, 并 且 分 析 的 目的 是 要 估计 这 些 真 实 值 . 为 此 我 们 
采用 一 种 Gibbs 抽样 方法 . 假设 参数 的 先 验 分 布 X ~ f(x). 而 Gibbs 抽样 的 目标 
是 为 了 从 X 的 后 验 密度 中 获得 样本 ， 


f(xly) x f(y|z)f (2). (8.16) 
X 的 一 类 后 验 分 布 为 


f(x) x exp > 由 (zi 一 | ` (8.17) 


inj 
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其 中 i ~ j 表示 像素 i 为 像素 j 的 邻 点 的 所 有 对 , 6 是 某 个 关于 0 对 称 的 函数 , 并 
H %(z) 随 |z| 增 大 而 增 大 ，(8.17) 式 称 为 成 对 差 先 验 . 基于 成 对 交互 作用 采用 这 
种 先 验 可 简化 计算 , 但 这 样 做 可 能 并 不 现实 . 推广 到 较 高 序 交互 作用 的 这 种 方法 在 
[539] 中 给 出 . 

Gibbs 抽样 需要 从 前 面 (8.14) 一 (8.16) 式 中 得 到 的 一 元 条 件 分 布 的 导数 . 因此 ， 
第 t 次 迭代 的 Gibbs 抽样 更 新 为 


xi) (2u) ~f (alev) x (8.18) 


一 种 常见 方法 是 依次 更 新 每 个 Xi, 然而 在 独立 的 区 组 中 更 新 像素 在 计算 上 会 更 有 
效率 . 而 区 组 由 对 特定 问题 定义 的 邻 域 决定 [34]. 另 一 种 对 马尔 可 夫 随机 域 模型 更 
新 区 组 的 方法 在 [333, 474] 中 给 出 . 

例 8.6 (犹他 花 橄 树 分 布 图 ) ”生态 学 中 一 个 重要 问题 是 在 一 个 自然 地 区 标 出 物种 
分 布 [251, 495]. 这 种 分 布 图 有 很 多 用 途 , 范围 从 最 小 化 人 类 发 展 对 稀有 物种 影响 
的 局 部 土地 使 用 规划 , 到 对 世界 范围 的 气候 建立 模型 等 . 这 里 我 们 考虑 一 种 生长 在 
科罗拉多 州 被 称 为 犹他 花 攀 树 (Amelanchier utahensis) 的 落叶 灌木 [355]. 

我 们 仅 考 虑 科罗拉多 州 最 西部 的 区 域 (大 约 在 西 经 104°), 该 区 域 包含 落 基山 
在 内 . 我 们 将 出 现 一 未 出 现 的 信息 分 成 近似 8 AER 8 公里 的 像素 . 这 一 网 格 由 
46 x 54 个 像素 的 格子 构成 . 已 知 像素 总 数 为 n = 2 484. 图 8.5 中 左 图 表示 观测 出 
现 和 未 出 现 , 其 中 黑色 像素 表示 我 们 在 这 一 位 置 观测 到 物种 . 


图 8.5 ”犹他 花 攀 树 在 科罗拉多 州 西部 的 分 布 . 左 图 是 物种 的 真实 分 布 图 , 右 图 是 例 8.6 中 
观测 的 物种 的 分 布 . 黑色 像素 表示 出 现 


一 般 在 应 用 这 种 模型 时 往往 无 法 获得 真实 图 像 . 然而 已 知 真实 图 像 可 以 使 我 们 
能 够 对 下 面 将 要 给 出 的 二 元 空间 数据 模型 展开 多 方面 的 研究 . 因此 , 为 了 说 明 , 我 
们 采用 这 些 出 现 一 未 出 现 的 成 对 数据 作为 真实 图 像 并 考虑 从 图 像 退 化 的 形式 估计 
真实 图 像 . 一 个 退化 图 像 在 图 8.5 的 右 图 中 给 出 . 我 们 利用 这 个 退化 图 像 寻 找 图 形 
重建 物种 的 真实 分 布 , 其 中 退化 图 像 可 看 作 是 观测 数据 y. 观测 数据 通过 随机 选择 
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30% 的 像素 并 且 交 换 其 颜色 生成 . 卫星 图 像 可 能 产生 误差 并 且 在 物种 制图 中 还 有 
一 些 其 他 可 能 产生 的 误差 . 

令 zi = 1 表示 在 像素 i 的 位 置 上 此 物种 真实 出 现 . 在 这 样 一 个 物种 制图 问题 
中 , 这 样 简单 的 编号 可 能 并 不 完全 合适 . 例如 , 一 个 物种 可 能 只 在 像素 i 中 的 一 部 
分 出 现 , 或 是 一 个 像素 中 可 能 包括 几 个 位 置 , 于 是 我 们 可 能 要 考虑 在 每 个 像素 中 对 

观测 到 物种 的 几 个 位 置 建立 模型 . 为 了 简化 , 我 们 假设 这 种 马尔 可 夫 随机 域 的 应 用 

问题 更 像 是 一 个 图 像 分 析 问 题 , 其 中 zi = 1 表示 黑色 的 像素 . 

我 们 考虑 由 数据 密度 得 到 的 简单 似 然 函 数 


f(ylz) x exp LÈ timers} (8.19) 
i=l 
其 中 zi € {0,1}. 参数 a 可 以 规定 为 用 户 选择 的 常数 或 是 通过 选择 一 个 先 验 然后 


估计 得 到 . 这 里 我 们 采用 前 者 , 设 a = 1. 
假设 X 的 成 对 差 先 验 密度 为 


f(a) ooo) (8.20) 


wi 

其 中 z es = {0,1}46*54. 我 们 考虑 一 个 一 阶 邻 域 , 于 是 (8.20) 式 中 所 有 i ~ j 的 
和 表示 所 有 像素 i 水 平方 向 和 垂直 方向 附近 的 像素 的 和 ，i = 1,… ,n. (8.20) 式 中 
引入 超 参 数 p, 其 中 可 以 指定 给 6 一 个 超 先 验 分 布 , 或 者 规定 其 为 一 个 常数 . 为 鼓 
励 相似 颜色 的 像素 聚集 , 通常 8 被 限定 为 正 的 . 这 里 令 8 = 0.8. 我 们 建议 对 选择 
的 a 和 的 值 作 敏 感度 分 析 以 确定 它们 的 影响 . 

假设 有 (8.19) RA (8.20) 式 ，Xilz_i,y 的 一 元 条 件 分 布 是 Bernoulli 分 布 . 于 
是 在 Gibbs 抽样 的 第 t+ 1 次 循环 中 , 设 第 i 个 像素 值 等 于 1 的 概率 为 


p(x z ety) 
=r 
= Q +exp {eon 一 y=) +85 (tepo = lepa】 }) , (8.21) > 
inj 


i=1, 虽然 给 出 的 (8.21) 式 以 相 邻 像素 为 条 件 更 新 XL+?, 但 在 实际 中 , 在 
Gibbs 循环 中 只 要 能 够 获得 相 邻 像素 , 往往 分 配给 它们 最 近 的 值 ( 见 7.2.2 节 ). 

图 8.6 给 出 在 科罗拉多 西部 犹他 花 橄 树 出 现 的 后 验 均值 概率 , 它 就 是 用 上 述 
Gibbs 抽样 的 方法 估计 得 到 的 .图 8.7 的 盒子 图 说 明 来 自 Gibbs 抽样 的 均值 后 验 
估计 可 以 成 功 区 别 实际 中 物种 是 否 存在 ， 事实 上 ,如果 后 验 均值 大 于 或 等 于 0.5 
的 像素 换 成 黑色 并 且 后 验 均值 小 于 0.5 的 像素 换 成 白色 , 则 86% 的 像素 将 被 正确 
标记 . 口 


198 第 8 章 MCMC 中 的 深入 论题 


图 8.6 例 8.6 Gibbs 抽样 分 析 中 X 的 估计 得 到 的 后 验 均值 


1.0 


Estimated P(X,= 1) 


Tis a Ras prea 

图 8.7 例 8.6 PIX = 1) 的 后 验 均值 估计 的 盒子 图 . 平均 Gibbs 抽样 中 特定 像素 的 样本 
路 径 , 对 每 个 i 给 出 PIX: = 1) 的 一 个 估计 . 盒子 图 说 明 这 些 估计 分 成 两 组 分 别 对 应 
表示 确实 出 现 及 未 出 现 犹 他 花 攀 树 的 像素 


例 8.6 所 用 的 模型 是 很 基础 的 , 它 忽略 了 很 多 在 分 析 空间 格子 数据 时 产生 的 重 
要 问题 . 例如 , 当 通 过 从 空间 上 划分 参考 的 数据 来 创建 像素 时 , 如 果 物 种 在 像素 的 
某 些 部 分 出 现 而 在 其 他 部 分 不 出 现 ， 我 们 就 不 知道 如 何 对 像素 i 中 观测 到 的 响应 
编号 , 

考虑 到 上 述 问题 , 一 个 模型 在 我 们 感 兴趣 的 区 域 中 用 到 一 个 潜在 的 二 元 空间 过 
程 [110, 192]. 令 X(s) 为 一 个 图 像 区 域 的 一 个 二 元 过 程 , 其 中 s 为 坐标 . 我 们 要 研 
究 的 物种 在 像素 i 出 现 的 比例 为 


Pi 10(s)=1}ds, (8.22) 


1 
© TAG /在 像素 i 中 的 s 
其 中 |4i| 表示 像素 i 的 区 域 . 令 Yi |x; 为 独立 的 条 件 Bernoulli 试验 , 其 中 观测 到 物 
种 出 现 的 概率 为 pi, 因此 P[Y; = 1|Xi = 1] = pi. 该 公式 允许 在 像素 包含 几 个 抽样 
位 置 时 直接 建 模 . 这 一 模型 的 更 复杂 形式 在 [192] 中 给 出 . 我 们 还 可 结合 协 变量 提 
高 对 物种 分 布 的 估计 . 例如 , 对 参数 为 p; 的 Bernoulli 试验 建立 模型 


8.4 例 : 马尔 可 夫 随机 域 上 的 MCMC 算法 199 


tog { P—} = wl +, (8.23) 


其 中 wi 为 第 i 个 像素 的 协 变量 向 量 ，6 为 协 变量 的 系数 向 量 ， 为 一 个 空间 相关 
随机 效应 . 这 种 模型 常用 于 空间 流行 病 学 的 领域 , 见 [38, 39, 351, 428]. 


8.4.2 ”马尔 可 夫 随 机 域 的 辅助 变量 方法 


8.4.1 节 给 出 的 实现 Gibbs 抽样 的 方法 虽 操 作 方 便 , 但 其 收敛 性 可 能 很 差 . 在 
81 节 中 我 们 曾经 介绍 过 可 以 提高 收敛 性 质 的 结合 辅助 变量 的 方法 以 及 混合 马 氏 链 
算法 . 对 于 二 元 马尔 可 夫 随 机 模型 , 上 述 改善 方法 同样 十 分 有 意义 . 

有 一 项 著名 的 辅助 变量 技术 称 为 Swendsen-Wang 算法 [151, 526]. 将 这 种 方法 
应 用 到 二 元 马尔 可 夫 随机 域 , 通过 聚集 颜色 相近 的 相 邻 像素 可 得 到 一 个 较 粗 糙 的 图 
像 . 每 个 聚 类 通过 一 个 合适 的 Metropolis-Hastings 步 进 行 更 新 . TZE A 
术 在 某 些 应 用 中 可 便于 快速 寻找 到 参数 空间 [286]. 

在 Swendsen-Wang 算法 中 , 通过 对 图 像 中 每 对 相 邻 的 像素 i ~ j 引入 一 个 连 
接 变 量 Uj, KORK. 所 有 连接 的 像素 构成 一 个 聚 类 . 颜色 相近 的 相 邻 像素 是 否 
连接 , 取决 于 Uij. 令 Ui; = 1 表示 像素 i 和 7 连接 , 而 Ui; = 0 则 表示 它们 没有 连 
接 . 假设 连接 变量 Uj 在 X = z 的 条 件 下 相互 独立 , 并 令 U 为 所 有 Ui; 的 向 量 . 

不 严格 地 讲 ，Swendsen-Wang 算法 在 生成 聚 类 和 标记 像素 颜色 之 间 交 替 进 行 . 
图 8.8 表示 用 于 一 个 4x4 像素 的 图 像 算法 的 一 次 循环 . 图 8.8 中 的 左 图 表示 当前 图 
像 以 及 一 个 4 x 4 的 图 形 中 所 有 可 能 的 连接 构成 的 集合 . 中 间 的 图 表示 Swendsen- 
Wang 算法 的 下 一 次 迭代 开始 时 生成 的 所 有 连接 . 下 面 我 们 将 看 到 颜色 相近 的 像素 
之 间 以 1 -exp{ 一 B} 的 概率 连接 起 来 , 因此 颜色 相近 的 相 邻 像素 并 非 是 强制 连接 
起 来 的 . 连接 的 像素 构成 的 连通 集合 形成 聚 类 . 在 图 8.8 中 间 的 图 上 , 用 框 线 围 起 
5 个 聚 类 . 这 表明 Swendsen-Wang 算法 允许 图 像 粗糙 . 在 每 次 迭代 的 最 后 , 更 新 所 
有 聚 类 的 颜色 : 依照 图 像 的 后 验 分 布 决定 的 某 种 方式 , 随机 给 聚 类 重新 着 色 . 图 8.8 
右边 的 图 表示 的 就 是 颜色 更 新 后 产生 的 新 的 图 像 . 这 里 没有 表示 出 观测 数据 y. 


图 8.8 Swendsen-Wang 算法 的 说 明 
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严格 意义 上 , Swendsen-Wang 算法 是 Gibbs 抽样 的 特例 , 在 更 新 Xlu Al Ula 
CART. 算法 过 程 如 下 : 


(1) 抽取 相互 独立 的 连接 变量 


UL) [2 ~ Unit (o. exp {61,0 =} }) ， 


对 于 所 有 的 i~j 相 邻 像素 . 注意 到 仅 当 z9 = zf 时 , OY 可 能 大 于 1, 并且 此 
RUGO > 1 的 概率 为 1 -exp{ 一 B}. 当 US) > 1 时 , 我 们 称 像素 i 和 像素 j 在 
第 t+ 1 次 迭代 时 连接 ; 

(2) 抽样 XCD utd ww f (ful), 其 中 


f (zlu) x exp 53 tuea} x Tosu” <ono{ er., ap 6% 
t=1 inj 
注意 到 (8.24) 式 强制 每 个 聚 类 的 颜色 作为 一 个 整体 单位 被 更 新 ; 

(3) 增加 t, 返回 第 一 步 . 

于 是 对 简单 模型 , 颜色 相同 的 像素 对 以 概率 1 — exp{-B] 连接 . 连接 变量 定义 
像素 的 聚 类 , 每 个 聚 类 由 至 少 一 个 连接 变量 所 连通 的 像素 的 集合 构成 每 个 聚 类 独 
立 更 新 且 在 同一 聚 类 中 的 像素 着 相同 的 颜色 . 通过 模拟 Bernoulli 分 布 , 我 们 实现 
(8.24) 中 的 更 新 步骤 , 其 中 给 一 个 像素 聚 类 C 着 黑色 的 概率 为 


exp {a Dice lw=1}} g 
exp {a Vice lfw=o0} + exp {a Dicc lr.=1)} 


(8.25) 


马尔 可 夫 随 机 域 的 局 部 相关 的 结构 根据 (8.25) 式 决定 的 着 色 可 进行 分 离 , 因此 有 
可 能 加 速算 法 的 混合 . 

例 8.7 (GRIER RDA, 续 ) ”为 比较 Gibbs 抽样 和 Swendsen-Wang 算法 的 表 
现 , 我 们 回 到 例 8.6. 在 这 一 问题 中 , 似 然 函 数 对 后 验 分 布 有 主要 的 影响 . 因此 为 了 
强调 两 种 算法 之 间 的 区 别 , 了 解 Swendsen-Wang 算法 可 以 实现 怎样 的 混合 , 我 们 令 
a = 0. 在 图 8.9 中 , 两 种 算法 在 相同 的 图 像 中 开始 第 一 次 迭代 , HARP REE 
代 也 在 图 中 给 出 . Swendsen-Wang 算法 每 次 迭代 产生 的 图 像 变化 很 大 , 而 Gibbs 抽 
样 产生 的 图 像 则 相当 近似 . 在 Swendsen-Wang ERF, 较 大 的 像素 聚 类 转换 颜色 
很 突然 , 因此 可 以 加 速算 法 的 混合 . 
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Swendsen-Wang 


pete 


BAR 1 
图 8.9 Gibbs 抽样 和 Swendsen-Wang 算法 模拟 马尔 可 夫 随 机 域 的 一 个 比较 . PETS 
代 1 是 相同 的 . 详 见 例 8.7 


当 包 含 似 然 函数 时 , 用 Swendsen-Wang 算法 分 析 例 8.6 中 的 数据 就 几乎 无 任 
何 优势 了 . 对 于 选 定 的 a 和 6, 聚 类 变 大 , 并 且 比 图 8.9 的 颜色 变化 的 频率 要 低 . 在 
对 该 问题 的 应 用 中 , 由 Swendsen-Wang 算法 获得 的 一 系列 图 像 看 起 来 与 Gibbs Hh 
样 得 到 的 图 像 相 当 近 似 , 此 时 由 Swendsen-Wang 算法 和 Gibbs 抽样 得 到 的 结果 差 
别 很 小 . 

利用 称 为 分 离 的 性 质 , Swendsen-Wang 算法 不 考虑 以 XO 为 条 件 的 似 然 函数 
而 生成 聚 类 . 似 然 函数 和 图 像 的 后 验 分 布 在 算法 的 第 1 步 和 第 2 步 被 分 开 . 这 一 
性 质 很 吸引 人 , 因为 它 可 以 提高 MCMC 算法 的 混合 速度 . 然而 除非 认真 选取 a 和 
B, 分 离 性 质 也 可 能 并 无 用 处 . 如 果 素 类 变 大 而 颜色 变化 频繁 , 则 样本 路 径 中 将 几乎 
没有 剧烈 的 图 像 变 化 . 这 就 导致 混合 性 差 . 进一步 , 当 后 验 分 布 是 多 峰 的 时 候 , 如 
果 链 运行 得 不 够 长 ，Gibbs 抽样 和 Swendsen-Wang 算法 可 能 错失 潜在 的 峰 . 为 解 
决 这 些 问 题 , 一 种 部 分 分 离 方 法 被 提出 , 同时 这 种 方法 对 于 解决 比较 困难 的 图 像 问 
题 也 有 一 些 潜在 的 优势 [285, 286]. 


8.4.3 ”马尔 可 夫 随 机 域 的 完美 抽样 


对 一 个 二 元 图 像 问题 实现 标准 的 完美 抽样 需要 监控 从 所 有 可 能 的 图 像 出 发 的 
样本 路 径 , 很 明显 , 即使 对 于 一 般 大 小 的 二 元 图 像 问题 这 都 不 可 能 做 到 . 在 8.3.1 节 
中 , 我 们 介绍 了 处 理 很 大 状态 空间 的 随机 单调 性 方法 . 我 们 可 应 用 这 种 方法 对 马尔 
可 夫 随 机 域 的 Bayes 分 析 实 现 完美 抽样 . 

为 研究 随机 单调 性 方法 , 要 求 状态 是 半 序 的 , 因此 如 果 ri < yi, i = 1,… ,n, 
Mesy, zyc 5. 在 二 元 图 像 问题 中 , 很 容易 就 可 以 验证 满足 半 序 的 条 件 . 如 果 
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S= {0,1}" FARE z; =1,i=1,---.n, 就 有 yi = 1, 则 定义 x <y. 如 果 确 定 的 
转移 法 则 4 可 以 保持 状态 的 半 序 性 质 , 则 我 们 只 需 监控 从 全 黑 和 全 白 图 像 出 发 的 
样本 路 径 的 配对 情况 . 

例 8.8 (夹层 二 元 图 像 ) 8.10 表示 对 一 个 4x 4 二 元 图 像 的 Gibbs 抽样 CFTP 
SOE TUBA, 其 中 像素 对 的 更 新 值 保持 序 不 变 . 在 上 面 一 行 的 样本 路 径 起 始 于 
第 r = -1000 次 迭代 , 其 中 图 像 是 全 黑 的 . 换言之 , cf 1, = 1 ,16. 下 
面 一 行 的 样本 路 径 从 全 白 的 图 像 出 发 ， 从 全 黑 的 图 像 出 发 的 样本 路 径 是 夹层 的 上 
R, 并 且 从 全 白 的 图 像 出 发 的 样本 路 径 是 夹层 的 下 界 . 


t= —1 000 t=—400 t=—399 t=—398 


t 
seen Goes sees n000 Ommam 
anna Coes oom) oomo ooma 
nana nomm Oe eee ONOS 
pannu Buoae Beas Dems ennu 
oooo @ooaao mood a000 omm 
oooo Domas oos@ oomo ooma 
0000 0000 so00 ocoss oceoe 
0000 Omano Onno ODEED EEEE 


图 8.10 “一 个 二 元 图 像 问题 的 完美 抽样 算法 的 图 像 序列 . 详 见 例 8.8 


在 初始 迭代 后 , 我 们 检查 在 t = —400 时 的 路 径 ， 在 下 方 的 样本 路 径 中 ， 从 
t = —400 时 的 迭代 到 上 = —399 时 的 迭代 , 画图 的 像素 由 白色 变 成 黑色 . 单调 性 要 
求 这 一 像素 在 上 方 的 路 径 中 也 变 成 黑色 . 该 要 求 可 通过 单调 更 新 函数 4 直接 实现 . 
然而 还 要 注意 到 在 上 方 的 图 像 中 从 白 到 黑 的 改变 并 不 能 强制 要 求 下 方 图 像 作 相同 
的 改变 ; 例如 , 画 圈 像素 右边 的 像素 . 

在 上 方 的 图 像 中 从 黑 到 白 的 改变 强制 要 求 下 方 图 像 作 相同 的 改变 . 例如 ,从 
t = -399 F] t = 一 398 时 , 上 方 样本 路 径 中 的 画 圈 像素 由 黑色 变化 成 白色 . 因此 人 迫 
使 下 方 的 样本 路 径 中 相应 的 像素 也 由 黑色 变化 成 白色 . 而 在 下 方 图 像 中 像素 由 黑 到 
白 的 改变 也 不 能 强制 上 方 的 图 像 作 相同 的 变化 . 

对 一 系列 图 像 中 像素 的 检查 表明 模拟 过 程 保持 了 成 对 像素 图 像 的 半 序 性 质 . 在 
t=O ARR, 两 样本 路 径 配 对 . 因此 在 r= -1 000 时 的 任意 图 像 出 发 的 一 条 链 
一 定 也 会 在 上 = 0 迭代 时 与 相同 的 图 像 配 对 . 在 上 = 0 时 表示 的 图 像 是 链 的 平稳 分 
布 的 一 次 实现 . 口 
例 8.9 (犹他 花 橄 树 分 布 , 续 ) ”对 于 物种 分 布 图 问题 , 在 例 8.6 中 给 出 的 Gibbs 抽 
样 之 后 , 紧 接着 我 们 建立 了 CFTP 算法 . 为 在 第 t+ 1 次 迭代 中 更 新 第 ; 个 像素 , 我 
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们 从 Unif(0,1) 中 生成 UY, 则 更 新 值 为 
XD <9 (a,u) 


(t+1) (t+1) 一 (t) 
_J 1 如果 < P(x! ije“) y], (ion) 
0, 其 他 ， 


其 中 P [XE = aay] 在 (8.21) 中 给 出 . 这 些 更 新 值 仍 保持 状态 空间 的 半 序 
性 质 ， 因 此 , 实现 CFTP 算法 要 从 两 个 初始 图 像 出 发 : 即 从 全 黑 和 全 白 的 图 像 出 
发 . 我 们 只 需 监控 这 两 个 图 像 , 并 继续 CFTP 算法 直到 两 图 像 在 t= 0 迭代 时 配对 
CFTP 算法 在 类 似 二 元 图 像 问题 中 的 应 用 , 见 [144, 145). 口 


8.5” 马 氏 链 极 大 似 然 


在 很 多 Bayes 的 例子 中 , 我 们 都 曾 用 Monte Carlo 积分 来 表示 马 氏 链 Monte 
Carlo 方法 . 而 MCMC 方法 对 于 极 大 似 然 估计 问题 同样 适用 , 特别 是 对 于 指数 族 
而 言 [205, 429]. 考虑 由 指数 族 模型 X ~ f(-|9) 生成 数据 , 其 中 

f(z|0) = c1(a)c2(6) exp {67 s(x)} F (8.27) 


这 里 9 = (91,… Op) 和 s(z) = (s1(Zz),… ,sp(z)) 分 别 为 参数 向 量 和 充分 统计 量 . 
在 很 多 情况 下 ，c2(9) 不 能 通过 分 析 方 法 确定 , 因此 使 得 似 然 函 数 不 能 直接 极 大 化 . 

假设 我 们 用 MCMC 方法 生成 XO,- x, SPARRO fely), EP Y 
是 为 9 专门 选择 的 , Bf (|b) 属于 和 数据 密度 相同 的 指数 族 . 则 易 证 


c2(0) 1 = ca() 1 [ox {(0 — )Ts(a)} f(w|p)de. (8.28) 


虽然 MOMC 抽样 之 间 相 互联 系 , 并 且 并 非 真 正 取 自 Cy), 但 是 利用 强大 数 定律 ， 
4n— oo 时 ,有 


io) = Yew {0 — w(x} 一 aw, (8.29) 
t=1 


此 , 给 定数 据 zx 的 对 数 似 然 函数 的 Monte Carlo 估计 为 


ielz) = gTs(z) — log (8), (8.30) 


再 加 上 一 个 常数 . 当 n 一 co 时 , 极 大 化 (Oe) 的 8 值 收敛 到 极 大 化 真实 对 数 似 然 
函数 的 6 值 . 因此 , 我 们 取 8 的 Monte Carlo 极 大 似 然 估计 为 极 大 化 (8.30) RK 
值 , 记 为 gw- 
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于 是 , 可 利用 MCMC 方法 生成 f(.| 罗 ) 的 模拟 值 近似 MLE Ô. 显然 , 似 然 估计 


6, 的 性 质 在 很 大 程度 上 依赖 于 v 的 选择 . 与 重要 抽样 相同 , 对 y 最 好 的 选择 是 令 
wb = 6. 而 在 实际 中 , 我 们 可 能 需要 通过 自 适应 或 者 经 验 似 然 估计 精心 选择 一 个 或 
者 几 个 w 值 [205]. 


8.1 


8.2 


8.3 


问 题 


在 8.2.1 节 中 曾 给 过 一 个 在 线性 模型 中 进行 Bayes 变量 选择 的 方法 , 并 且 该 方法 在 例 8.4 
中 得 到 进一步 的 验证 . 对 于 (8.10) 式 中 的 Bayes 分 析 , 我 们 可 以 使 用 正 态 - 伽 玛 分 布 的 
先 验 共 扼 族 Blmk ~ N (am, 0°V m) A vd/o? ~ x. 证 明 Ym 的 边际 密度 为 


r (H WN 
PAUE Xm V XP 


$ JAA -aa 
x [Av + (Y = X maam)" (1+ Xm Vm KE) (Y -Xm am) ; 


其 中 Xm, 为 设计 矩阵 ,aomx 为 均值 向 量 , Vm。 为 模型 mx 中 B， 的 协 变量 矩阵 . 

考虑 8.3 节 中 给 出 的 CFTP 算法 . 

(a) 构造 一 个 有 限 状 态 空间 的 例子 , 利用 Metropolis-Hastings 算法 以 及 CFTP 算法 模 
拟 多 元 平稳 分 布 f. 针对 你 给 出 的 例子 , 定义 (7.1) 式 中 的 Metropolis-Hastings 比 
率 以 及 (8.13) 式 中 的 确定 转移 法 则 , 并 且说 明 二 者 之 间 有 何 联系 . 

(b) 构造 一 个 二 元 状态 空间 的 例子 , 使 得 可 以 应 用 CFTP 算法 模拟 平稳 分 布 f. R 
(8.13) 式 的 形式 , 定义 两 个 确定 转移 法 则 , 其 中 一 个 转移 法 则 qn, 可 在 某 一 次 迭代 时 
配对 , 而 另 一 个 转移 法 则 go, 则 不 能 配对 . CFTP 算法 中 的 哪 条 假设 与 法 则 gs 相 违 
W? 

(c) 构造 一 个 二 元 状态 空间 的 例子 说 明 为 什么 CFTP 算法 不 能 在 7 = 0 时 开始 并 且 完 
成 配对 . 你 所 作 的 解释 同样 可 以 说 明 在 8.3 节 讨论 过 的 问题 . 

假设 我 们 希望 从 X 的 边缘 分 布 抽样 , 其 中 9 ~ Betala, 8) 并 且 XI ~ Bin(n,9) [81]. 

(a) 证 明 9lz ~ Beta(a +x,8+n—x). 

(b) RH X 的 边际 分 布 值 . 

(c) 使 用 Gibbs 抽样 获得 (0, X) 的 联合 样本 , 令 2 = 0, a = 10,8=5 M n = 10. 

(d) SUHD 和 V(t+D 为 两 个 服从 Unif(0, 1) 分 布 的 相互 独立 的 随机 变量 . 则 从 XO) = 
zO 到 XOD 的 转移 法 则 可 写 为 


XD q (2, ver), ver) 
= Fain (VP:n, Faaa (UP a +258 + 2)), 639 


其 中 F’ (pin, pa) 是 参数 为 yl 和 p 的 分 布 d 的 可 逆 累 积分 布 函 数 , 其 中 变量 
为 p. 利用 (8.31) 式 中 的 转移 法 则 , 实现 8.3.1 节 中 的 CFTP 算法 , 并 针对 本 问题 
进行 完美 抽样 . 每 次 样本 路 径 在 t= 0 时 没有 配对 , 则 7 就 减少 一 个 单位 . 运行 函 


8.4 


数 100 次 , 对 平稳 分 布 抽样 100 次 , 其 中 a = 10, B= 5, n = 10. 做 一 个 100 个 起 
始 时 刻 的 直方 图 (使 得 其 终点 时 刻 均 为 上 = 0). 做 一 个 100 个 XO 实现 值 的 直方 
图 . 并 讨论 你 的 结果 . 

(e) 对 于 œ = 1.001, 6 = 1, n = 10, 运行 几 次 (d) 中 的 函数 . 选择 一 次 运行 , 要 求 链 在 
7= 15 或 更 早 的 时 刻 开始 . 画 出 从 所 有 起 始 时 刻 (11 个 起 始 值 ) 到 t = 0 时 刻 的 样 
本 路 径 , 即 顺 序 连接 状态 的 线路 . 如 同 图 8.3 的 右 图 一 样 , 观察 链 的 配对 情况 . 并 说 
明 图 中 我 们 感 兴趣 的 性 质 . 

(E) 运行 几 次 (d) 中 的 算法 . 每 次 运行 , 选择 一 个 长 度 为 20 的 完美 链 ( 即 , 一 旦 完成 配 
对 , 算法 并 不 在 t = 0 时 刻 停止 , 而 是 从 t= 0 时 刻 继续 链 的 运行 到 t = 19 时 刻 ). 
选择 一 个 这 样 的 链 , 其 中 rO = 0, 并 且 画 出 t= 0,… ,19 的 样本 路 径 . 接 下 来 , 从 
2 = 0 出 发 经 过 上 = 19 时 刻 , 运行 (c) 中 的 Gibbs 抽样. 在 已 画 好 的 图 上 用 虚线 
迭 加 这 条 链 的 样本 路 径 . 

i 在 Gibbs 抽样 中 预 烧 t = 2 是 否 充分 ? 为 什么 ? 

这 (以 2 = 0 为 条 件 的 CETP 算法 和 从 2 = 0 开始 的 Gibbs 抽样 产生 的 ) 两 条 
链 中 , 哪 一 条 生成 的 随机 变量 序列 六, t = 1, 2,……, 的 分 布 更 接近 目标 分 布 ? 为 什 
么 这 种 带 条 件 的 CETP 链 不 能 产生 一 个 完美 抽样 呢 ? 

考虑 一 维 黑白 图 像 , 并 用 0 和 1 构成 的 向 量 表示 . 对 于 35 个 像素 y = (y, ,yss) 的 

观测 数据 (观测 图 像 ) 为 


10101111010000101000010110101001101. 
假设 真实 图 像 z 的 后 验 密度 为 


as 
Flely) x exp {Eae} exp {Esen} : 


i=1 iz 
其 中 ‘aA a 
log {2/3}, Ti = Yi, 
PAPE BYE { log{1/3}, MR zi Ay. 
对 本 问题 考虑 使 用 Swendsen-Wang 算法 , 其 中 根据 Uijlz ~ Uinf (0, exp {8144.1 }) 
抽取 连接 变量 . 
(a) 实现 上 述 Swendsen-Wang 算法 , 其 中 B = 1. 创建 一 条 长 度 为 40 的 链 , 并 要 求 起 
始 图 像 oO 为 观测 数据 . 
注意 到 一 系列 完整 的 图 像 可 如 图 8.11 所 示 在 一 个 二 维 图 中 表示 出 来 ， 图 8.11 
中 使 用 的 是 Gibbs 抽样 。 利用 从 Swendsen-Wang 算法 中 得 到 的 输出 结果 ， 为 
Swendsen-Wang 办 代 创建 一 个 类 似 8.11 的 图 .并 指出 你 所 给 出 的 图 与 图 8.11 的 
区 别 . 
分 别 对 于 8 = 0.5 和 6 = 2 时 重复 (a), 研究 8 的 作用 . 并 指出 你 所 给 出 的 图 与 (a) 
中 结果 的 区 别 . 
通过 对 于 三 个 不 同 的 起 始 值 重 复 (a), 研究 起 始 值 的 作用 ; 首先 令 s = (0,… ,0)， 
其 次 令 wl = (1,… ,1), 最 后 令 z( =0,8=1,--- 17M 2 =1,1=18,--- ,35. 
将 这 三 个 试验 的 结果 与 (a) 中 的 结果 作 比 较 . 


(b; 


(c 
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(d) 有 什么 好 的 方法 可 以 产生 一 个 最 好 的 图 像 代 表 你 对 真实 图 像 的 估计 ? 


40 


30 


时 间 


204 


10 


T 
0 10 20 30 


像素 
图 8.11 问题 8.4 的 40 次 Gibbs 抽样 迭代 , 其 中 B = 1 


8.5 图 8.12 中 给 出 的 真实 图 像 以 及 观测 图 像 的 数据 可 在 本 书 的 网 站 上 获得 . 这 里 的 真实 图 
像 是 一 个 二 元 的 20 x 20 像素 的 图 像 , 其 先 验 密 度 为 


f(zilzs) = N (Zs, 0°/vi), 


i=l, n, 其 中 vi 为 zi 的 邻 域 6 中 邻 点 的 个 数 ， 而 Zs, 为 第 i 个 像素 的 邻 点 的 均 
值 . 先 验 密度 使 得 局 部 相关 . 观测 图 像 是 带 有 了 噪声 的 真实 图 像 的 退化 形式 , 用 灰色 标注 ， 
并 可 通过 一 个 正 态 分 布 建立 模型 . 假设 似 然 方程 为 


F (vile) = N(zi,0°), 


b 10 15 20 Ln 10 16 2 
图 8.12 问题 8.5 的 图 像 . 左 图 是 真实 图 像 , 右 图 是 一 个 观测 图 像 
(a) 对 本 问题 使 用 Gibbs 抽样 , 证 明 其 中 一 元 条 件 后 验 分 布 为 


1 v a? 
ile-i y) =N { ——yi + ooo) 
Tel (saa + is wti 


(b) 假设 算法 的 起 始点 是 等 于 观测 数据 图 像 的 初始 图 像 2, 并 且 o = 5, 利用 一 个 二 


(c 


(d 


阶 邻 域 . 使 用 Gibbs 抽样 (没有 预 烧 期 或 是 次 抽样 ) 从 后 验 分 布 中 生成 100 个 图 像 
的 集合 . 其 中 不 要 将 图 像 看 作 是 新 图 像 , 除非 每 一 个 像素 都 完成 更 新 (HN, 一 次 完整 
的 循环 ). 记录 完成 后 面 的 图 需要 的 数据 : 数据 图 像 , 第 一 次 从 后 验 分 布 (XGO) 中 抽 
得 的 样本 图 像 , 最 后 一 次 从 后 验 分 布 (大 Qoo)) 中 抽 得 的 样本 图 像 以 及 均值 图 像 . 
提示 : 

。 由 于 邻 域 大 小 的 变化 , 处 理 边界 是 比较 困难 的 . 而 创建 一 个 42 行 , 42 列 的 矩阵 ， 
其 中 观测 数据 的 四 周 是 全 为 零 的 行 或 者 列 ， 比 较 容易 做 到 ， 若 使 用 这 种 方法 , W 
要 确保 边缘 区 域 不 影响 你 的 分 析 

。 画 出 一 次 完整 循环 中 最 后 的 XO 图 , 使 得 可 以 更 好 地 理解 你 所 构造 的 链 的 表现 . 

仿照 (b) 的 方法 运行 2 x 3 因素 设计 , 要 求 填充 设计 的 剩余 部 分 , 其 中 设计 的 因子 

和 水 平 如 下 : 

o 选择 的 相 邻 结构 为 (i) 一 阶 邻 域 或 (i) 二 阶 领 域 . 

。 选择 像素 误差 的 变化 率 为 (i) o = 2, (ii) o = 5 或 (ii) o = 15. 

作 图 并 详细 比较 试验 中 每 个 设计 点 的 结果 . 

仿照 (b) 的 方法 再 重复 一 次 运行 , 但 这 次 起 始 图 像 cO 等 于 57.5 (真实 后 验 平均 像 

素颜 色 ), 其 中 o = 5 并 使 用 到 一 阶 邻 域 . 讨论 你 的 结果 并 通过 结果 说 明 链 的 表现 . 
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9.1 Bootstrap 的 基本 原则 


令 9 = TE) 为 我 们 所 感 兴趣 的 关于 分 布 函数 的 菜 一 特征 , 将 其 表示 为 F 
的 函数 ， 比 如 , TUR) = J zdF(z) 是 分 布 的 期 望 ， 令 z1,… ,zw 为 观测 数据 , 其 可 


看 作为 随机 变量 X1,… Xn ~ ii.d.F 的 实现 . 本 章 用 X ~ 下 表示 X 服从 密度 
函数 为 了 的 分 布 , 其 对 应 的 累积 分 布 函数 为 F. SX = {X1,… Xn} 表示 整个 数 
据 集 . 

如 果 是 观测 数据 的 经 验 分 布 函数 , 则 9 的 一 个 估计 为 5 = TF). 比如 , 当 0 


是 一 元 总 体 均值 , 则 估计 就 是 样本 均值 , 8 = / zde) = YX/n. 
i=1 


统计 推断 的 问题 通常 是 根据 TF) 或 某 个 R(X, F) 提出 来 的 , 这 里 R, F) 是 
依赖 于 数据 和 它们 的 未 知 分 布 函数 FF 的 统计 函数 . 举例 来 说 , 一 个 一 般 的 检验 统 
WEAN R(X, F) = (T(F)-T(F)|/S(F), SP 5 为 估计 TA) 的 标准 差 的 函数 . 

随机 变量 R(X, F) 的 分 布 可 能 难以 处 理 或 者 根本 就 是 未 知 的 . 该 分 布 可 能 也 
依赖 于 未 知 分 布 F. Bootstrap 方法 提供 了 关于 R(X, F) 的 分 布 的 一 种 近似 , 其 是 由 
观测 数据 的 经 验 分 布 函数 (本 身 是 F 的 估计 ) 所 导出 的 [152, 154]. 关于 Bootstrap 
的 详尽 回顾 可 参见 (122, 157, 159]. 

令 X* 表示 一 伪 - 数 据 Bootstrap 样本 ,这 里 我 们 称 其 为 伪 数 据 集 、X* = 

{六 1，… XR} 的 元 素 是 独立 同 分 布 于 F 的 随机 变量 . Bootstrap 的 策略 就 是 考 
RE R(X, PF) 的 分 布 , 也 就 是 在 R 中 使 用 x* 所 得 到 的 随机 变量 . 在 某 些 特殊 情况 
T, 我 们 有 可 能 通过 解析 方法 推导 或 估计 R, F) ( 见 例 9.1 及 问题 9.1 45 9.2). 但 
是 通常 所 使 用 的 是 如 同 在 9.2.1 节 中 所 描述 的 模拟 方法 . 
例 9.1 (简单 描述 ) ”假设 有 n = 3 个 一 元 数据 点 , 也 就 是 {zi 22,23} = {1,2, 6}, 
是 从 均值 为 9 的 分 布 F 中 观测 到 的 独立 同 分 布 样本 . 在 每 个 观测 点 , P 给予 其 1/3 
的 密度 . 假设 我 们 想 要 Bootstrap 的 估计 是 样本 均值 0, 也 就 是 可 写成 TÊ) 或 者 
R(X, F), 其 中 在 此 问题 中 RR 不 依赖 于 F. 

令 X` = {X}, X3, X35} 包含 从 中 抽取 出 的 元 素 . 对 于 X 总 共有 33 = 27 种 
可 能 . 令 FY 表示 这 个 样本 的 经 验 分 布 函 数 , 其 相应 的 估计 为 O 二 T(F*). A 6 
不 依赖 于 数据 的 顺序 , 则 总 共 只 有 10 种 不 同 的 结果 . 表 9.1 列 出 了 这 些 结果 . 
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表 9.1 由 {1,2,6} 所 可 能 得 到 的 Bootstrap 伪 数 据 集 (忽略 顺序 )， 相应 的 6* =T(F*), 
在 Bootstrap 实验 中 每 一 种 结果 的 概率 (P* [全 ]), 以 及 1 000 次 Bootstrap $ 


代 所 观测 到 的 相对 频率 

D PP*[b"] 观测 频率 
1 1 1 3/3 1/27 36/1000 
1 1 2 4/3 3/27 101/1000 
1 2 2 5/3 3/27 123/1000 
2 2 2 6/3 1/27 25/1000 
1 1 6 8/3 3/27 104/1000 
1 2 6 9/3 6/27 227/1000 
2 2 6 10/3 3/27 131/1000 
1 6 6 13/3 3/27 111/1000 
2 6 6 14/3 3/27 102/1000 
6 6 6 18/3 1/27 40/1000 


在 表 9.1 P, PPO) 表示 以 原始 观测 为 条 件 抽取 X* 的 Bootstrap 实验 中 0* 
的 概率 分 布 . 为 与 下 区 分 , 当 涉 及 该 条 件 概率 或 矩 的 时 候 , 我 们 用 星 号 来 表示 , 如 
P* [6 < 6/3= 8/27]. 

Bootstrap 的 基本 原则 就 是 视 R(X", F) 和 R(X, F) 是 等 同 的 . 在 该 例 中 , 这 就 
意味 着 我 们 基于 O 的 分 布 来 进行 推断 . 该 分 布 归 纳 在 表 9.1 中 , 也 就 是 外 和 Pe]. 
所 以 , 举例 来 说 , 利用 O 的 分 布 的 分 位 数 , 可 得 到 对 于 0 的 一 个 简单 Bootstrap 
25/27 (大 约 93%) 置信 区 间 为 (4/3,14/3). 点 估计 仍然 通过 原始 观测 数据 来 获得 ， 
BI Ô = 9/3. o 
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9.2.1 JFS% Bootstrap 


通常 对 于 一 个 实际 问题 的 样本 容量 , 潜在 的 Bootstrap 伪 数 据 集 的 个 数 非常 
K, 因此 将 所 对 应 的 概率 都 列举 出 来 是 不 现实 的 . 作为 替代 , 我 们 可 从 观测 数据 的 
经 验 分 布 函数 中 随机 抽取 B 个 独立 的 Bootstrap 伪 数据 集 . 将 它们 定义 为 Xi = 
二 和 一 1 Re 全 ,= 1,…,B 的 经 验 分 布 函数 可 用 于 近似 
R(X, F) 的 分 布 并 进行 推断 . 这 样 避免 了 完全 列举 所 有 可 能 的 Bootstrap 伪 数 据 集 ， 
但 模拟 误差 相应 产生 , 然而 我 们 可 通过 增 大 B 使 这 个 误差 任意 地 小 . Bootstrap 使 
我 们 的 分 析 和 推断 不 需要 进行 参数 假设 ， 它 为 那些 不 太 可 能 得 到 解析 方案 的 问题 
提供 了 解决 办 法 , 并 且 可 以 给 出 比 应 用 传统 标准 参数 理论 所 得 到 的 结果 更 加 精确 的 
回答 . 
例 9.2 (简单 描述 , 续 ) ”我 们 继续 研究 例 9.1 中 的 数据 , 回想 在 那个 例子 中 观测 数 
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据 的 经 验 分 布 函数 F E 1, 2,6 上 分 别 置 予 1/3 的 密度 . ESR Bootstrap 通过 从 
F 中 独立 同 分 布地 抽取 Xs, XL 和 Xt, 来 构成 xr. 换 名 话说, 从 {1,2,6} 中 等 
概率 可 放 回 地 抽取 X%. 每 个 Bootstrap 伪 数 据 集 产生 相应 的 估计 0*. 表 9.1 中 给 
出 了 由 随机 抽取 的 B = 1 000 的 Bootstrap 伪 数 据 集 tx 所 得 到 的 对 分 可 能 值 观 
测 到 的 相对 频率 . 这 些 相对 频率 可 用 于 近似 P). Bootstrap 思想 说 明 此 时 可 用 
PrE) 来 近似 8 的 抽样 分 布 . 
对 于 这 个 简单 描述 问题 , 所 有 可 能 的 Bootstrap 伪 数 据 集 空间 可 以 完全 地 列举 
出 来 , 因此 Pe (O°) 可 精确 地 推导 出 来 . 因此 , 对 于 该 问题 我 们 可 以 不 使 用 模拟 方法 . 
然而 , 在 实际 应 用 中 , 样本 容量 可 能 太 大 以 至 于 不 可 能 列举 出 Bootstrap 的 样本 空 
间 . 因此 , 在 真实 的 应 用 问题 中 ( 见 9.2.3 节 ), 通常 只 有 可 能 的 伪 数 据 集 的 一 小 部 分 
会 被 抽取 到 , 因此 这 样 做 经 常 得 到 的 是 对 于 估计 量 可 能 值 的 一 个 子 集 . 口 
对 于 Bootstrap 方法 的 一 个 基本 要 求 是 被 重 抽样 的 数据 本 身 是 一 个 独立 同 分 
布 的 样本 . 如 果 样本 不 是 独立 同 分 布 的 ，R(X*, 请 ) 对 于 R, F) 的 分 布 近似 则 不 
再 成 立 . 我 们 将 在 9.2.3 节 中 说 明 使 用 者 必须 谨慎 地 考虑 生成 观测 数据 的 随机 机 制 
与 所 使 用 的 Bootstrap 重 抽样 策略 之 间 的 关系 . [122, 159, 344, 352, 518] 给 出 了 对 
于 相关 数据 的 Bootstrap 方法 . 


9.2.2 ”参数 化 Bootstrap 


前 面 所 描述 的 典型 的 非 参 数 Bootstrap 方法 是 从 F 中 抽取 独立 同 分 布 的 
XX!1,… Xn 来 生成 伪 数 据 集 区 *， 当 数据 可 被 模型 化 使 其 本 身 来 自 于 一 个 参数 分 
Ai, 即 Xi, Xn ~ iid. F(z,6) 时 , 我 们 可 采用 F 的 另 一 种 估计 . 假设 观测 数据 
可 用 来 获得 6 以 估计 9. 则 我 们 能 够 通过 抽取 X?,… , XX” ~ iid. F(z,6) 来 生成 
参数 化 Bootstrap 伪 数 据 集 +*. 当 模 型 已 知 或 可 确信 很 好 地 表示 了 真实 模型 的 时 
tk, 参数 化 Bootstrap 将 会 成 为 一 个 强 有 力 的 工具 , 它 能 够 对 那些 难以 处 理 的 问题 
给 出 推断 , 并 且 其 产生 的 置信 区 间 会 比 用 标准 极限 理论 所 得 到 的 精确 很 多 . 

然而 , 在 某 些 情 形 下 , 到 底 Bootstrap 基于 什么 模型 往往 是 事后 决定 的 . 举例 来 
说 , 一 个 确定 性 的 生物 学 种 群 模型 , 其 基于 一 些 生物 学 参数 以 及 初始 种 群 大 小 , 可 
能 用 来 预测 种 群 数量 随时 间 的 变化 . 假设 在 不 同 的 时 间 点 上 用 不 同 的 方法 对 动物 
计数 .我 们 可 用 观测 到 的 数量 与 模型 预测 的 进行 比较 来 判断 模型 参数 是 否 产生 良 
好 的 拟 合 效果 . 然后 我 们 可 以 再 建立 第 二 个 模型 , 并 认为 观测 值 来 自 于 对 数 正 态 分 
布 , 其 期 望 等 于 由 生物 学 模型 所 得 到 的 预测 值 , 而 其 变 差 是 预先 决定 的 一 系数 . 这 
样 就 形成 了 参数 和 数据 之 间 方 便 的 联系 . 我 们 通过 从 对 数 正 态 分 布 抽取 Bootstrap 
伪 数 据 集 来 对 第 二 个 模型 使 用 参数 化 Bootstrap 方法 . 在 这 种 情况 下 , 观测 数据 的 
抽样 分 布 很 难 被 认为 是 服从 对 数 正 态 模型 的 . 

只 有 在 迫不得已 的 情形 下 才 使 用 这 种 依赖 于 特别 的 误差 模型 的 分 析 . 使 用 方便 
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的 但 不 适当 的 模型 常常 相当 诱 人 . 如 果 模 型 不 能 够 很 好 地 拟 合 数据 的 生成 机 制 , 参 
数 化 Bootstrap 方法 就 会 得 到 错误 的 推断 结果 . 然而 , 在 那些 没有 什么 合适 的 推断 
性 的 方法 可 使 用 的 场合 下 , 我 们 也 可 一 试 . 


9.2.3 ”基于 Bootstrap 的 回归 方法 


考虑 如 下 一 般 的 多 重 回归 模型 , Y; = eT B+ ci = 1,… ,n, 其 中 假设 e 是 均 
值 为 零 方差 为 常数 的 独立 同 分 布 随机 变量 . 这 里 , z; 和 有 分 别 是 p 维 的 协 变量 
和 参数 . 一 种 简单 但 是 错误 的 Bootstrap 方法 描述 如 下 . 我 们 从 响应 值 集合 中 重 抽 
样 来 构成 一 个 新 的 伪 响 应 , 也 就 是 对 于 每 一 个 观测 的 z; 有 Y*, 从 而 可 得 到 一 个 新 
的 回归 数据 集 ， 然后 可 以 由 这 些 伪 数 据 集 来 计算 Bootstrap 参数 向 量 估计 A". E 
复 重 抽样 和 估计 的 步 怠 很 多 次 后 ，B" 经 验 分 布 可 用 于 推断 B. 这 样 做 错误 的 原因 
是 Yie: 不 是 独立 同 分 布 的 一 -它们 具有 不 同 的 边际 分 布 . 因此 , 用 这 种 方法 生成 
Bootstrap 回归 数据 集 是 不 恰当 的 . 

为 了 确定 一 个 正确 的 Bootstrap 方法 , 我 们 必须 找到 合适 的 独立 同 分 布 的 变量 . 
模型 中 的 ei 是 独立 同 分 布 的 . 因此 , 更 恰当 的 策略 是 如 下 所 描述 的 Bootstrap 残 
Bik. 

我 们 先 由 观测 数据 拟 合 回归 模型 , 然后 获得 拟 合 的 响应 p 和 残 差 a AME 
残 差 集合 中 有 放 回 地 随机 抽取 得 到 Bootstrap RERA { 合 ,… ,全 }，( 注 意 实际 
上 合 不 是 独立 的 , 尽管 通常 来 说 它们 近似 独立 .) 生成 一 个 伪 响 应 Bootstrap 集合 ， 
Yo =i +G,i=1,---,n. 对 e BVA Y* 从 而 获得 Bootstrap 参数 估计 .重复 多 
次 该 过 程 可 得 到 BB” 的 经 验 分 布 函 数 , 然后 我 们 用 它 进行 推断 . 

对 于 设计 好 的 实验 或 者 v 值 是 预先 固定 的 数据 , 这 种 方法 是 最 适合 的 . 对 于 
其 他 模型 , 如 AR(1)、 非 参数 回归 和 广义 线性 模型 的 简单 Bootstrap 方法 的 核心 都 
是 Bootstrap 残 差 的 策略 . 

Bootstrap 残 差 依赖 于 选 定 的 模型 是 否 能 够 给 予 观测 数据 适当 的 拟 合 以 及 残 
差 具 有 常数 方差 的 假设 . 如 果 对 这 些 条 件 的 成 立 没有 足够 信心 的 话 , 则 我 们 可 能 需 
要 使 用 其 他 的 Bootstrap 方法 . 

假设 数据 从 某 观察 研究 中 得 到 , 其 中 响应 变量 和 协 变量 都 是 从 一 群 个 体 中 随 
机 选 出 并 测量 得 到 的 . 在 这 种 情形 下 , 我 们 可 将 数据 zi = (wi. ys) 视 作 是 从 响应 - 
协 变 量 联 合 分 布 中 得 到 的 随机 变量 Z: = (X: Y:) 的 观测 值 . 对 于 Bootstrap, 可 随 
机 有 放 回 地 从 观测 数据 {z1,… , zn} 中 抽取 样本 Zio, Zh 对 所 得 到 的 伪 随 机 
数据 集 拟 合 回归 模型 以 获得 Bootstrap 参数 估计 A. 多 次 重复 这 些 步 又 , 然后 如 
第 一 种 方法 中 介绍 的 进行 推断 ， 这 种 情形 的 Bootstrap 方法 有 时 也 被 称 作为 成 对 
Bootstrap. 


若 回归 模型 的 适当 性 , 残 差 方差 的 稳定 性 , 或 者 其 他 回归 假设 有 疑问 的 话 , 则 


212 #9 Bootstrap 方法 


成 对 Bootstrap 对 不 满足 这 些 假 设 的 情形 要 比 Bootstrap 残 差 方法 更 加 稳健 . 在 协 
变量 不 是 固定 的 情形 下 , 成 对 Bootstrap 更 加 直接 地 匹配 了 原始 数据 的 生成 机 制 . 
还 有 一 些 其 他 更 加 复杂 的 用 于 处 理 Bootstrap 回归 问题 的 方法 [122, 156, 159, 
288]. 
例 9.3 ( 铜 - 镍 合金 数据 ) ” 表 9.2 给 出 了 在 铜 - 镍 混合 过 程 中 13 个 腐蚀 损失 测量 
值 (yi), 每 个 对 应 一 特定 的 含 铁 量 (zi) [147]. 我 们 感 兴趣 的 是 相对 于 当 不 含 铁 时 的 
腐蚀 损失 , 随 着 含 铁 量 的 增加 , 混合 过 程 中 腐蚀 损失 的 变化 . 因此 , 考虑 简单 线性 模 
型 中 9 = 61 /Bo 的 估计 . 


表 9.2 ”用 于 描述 获得 对 B1/Bo 的 Bootstrap 置信 区 间 方 法 的 铜 - 镍 合金 数据 


Ti 0.01 0.48 0.71 0.95 1.19 0.01 0.48 
vi 127.6 124.0 110.8 103.9 101.5 130.1 122.0 


1.44 0.71 1.96 0.01 1.44 1.96 
92.3 113.1 83.7 128.0 91.4 86.2 


令 zi = (zayii = 1, ,13, 假设 采用 成 对 Bootstrap 方法 .通过 观测 数据 
得 到 估计 O = A/B = —0.185. 对 于 i= 2,--- ,10 000, 我 们 随机 有 放 回 地 从 13 
个 数据 对 {zi,…… ,z13} 重 抽样 得 到 Bootstrap 数据 集 {2Z7,… , Zia}. 图 9.1 是 由 
Bootstrap 数据 集 回归 所 得 到 的 估计 的 直方 图 这 个 直方 图 归纳 了 9 的 估计 8 的 抽 
样 变 差 . 口 


-021 —0.19 i 一 0.17 

6=3; / & HY Bootstrap 估计 

图 9.1 ” 铜 - 镍 合金 数据 的 非 参数 成 对 Bootstrap 分 析 所 得 到 的 1 /6o 的 10 000 次 Bootstrap 
估计 的 直方 图 


9.2.4 Bootstrap 偏差 修正 


24 T(F) = 6 时 , 在 Bootstrap 分 析 中 我 们 特别 感 兴趣 的 量 是 R(X, F) = T(F)- 
T(P)， 这 个 量 代表 的 是 T(P) = 6 的 偏差 ， 其 均值 等 于 E{ 命 — 9， 这 个 偏差 的 
Bootstrap 估计 是 E*{6"} — 0 = 6 — 6, HHO = D> 63/B. 

j=l 
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例 9.4 ( 铜 - 镍 合金 数据 ， 续 ) ”对 于 例 93 的 铜 - 镍 合金 回归 数据 ,由 Bootstrap 
伪 数 据 集 所 得 的 © — 人 均值 为 -0.001 25, 也 就 是 一 个 比较 小 的 负 偏差 .因此 ， 
G1 /Bo 的 偏差 修正 后 的 Bootstrap 估计 为 —0.185 07 — (—0.001 25) = —0.184. 通过 
9.3.2 节 第 4 部 分 中 的 Bootstrap 媒 套 方法 可 以 很 自然 地 将 偏差 估计 包含 入 区 间 估 
计 中 . 口 

我 们 通过 很 少 的 工作 就 可 得 到 一 个 改进 的 偏差 估计 - 令 Fy 表示 第 j 个 Boot- 
strap 伪 数 据 集 的 经 验 分 布 , 且 定 义 F(z) = È F3(a)/B. SO - T(E") 就 是 一 个 


更 好 的 偏差 估计 . 我 们 将 在 9.5 节 中 讨论 该 全 略 与 Bootstrap 打包 法 的 比较 . 关于 
这 些 方法 以 及 其 他 一 些 偏差 修正 的 特点 的 研究 显示 使 用 O* — TE) 具有 较 出 色 的 
效果 及 更 快 的 收敛 速度 [159]. 


9.3 Bootstrap 推断 


9.3.1 “分 位 点 方法 


Bootstrap 模拟 来 对 一 元 参数 9 进行 推断 的 最 简单 方法 是 使 用 分 位 点 方法 
构造 一 个 置信 区 间 . 也 就 是 从 Bootstrap 所 得 到 的 关于 人 的 直方 图 上 读 取 分 位 点 . 
实际 上 此 方法 已 隐 含 在 前 面 的 讨论 中 了 . 
例 9.5 ( 铜 - 镍 合金 数据 , 续 ) EEH 9.3 所 介绍 的 铜 - 镍 合金 回归 数据 中 对 9 = 
及 /bo 的 估计 问题 . 回想 图 9.1 给 出 了 8 的 抽样 方差 作为 9 的 估计 . 基于 分 位 点 方 
法 我 们 可 通过 在 直方 图 上 找到 ((1 - a/2)100) 和 ((a/2)100) 的 经 验 分 位 点 来 构造 
Bootstrap 1 一 a 置信 区 间 . 使 用 简单 的 Bootstrap 分 位 点 方法 所 得 到 关于 21/60 i 
95% 的 置信 区 间 为 (—0.205, —0.174). 

进行 假设 检验 与 估计 置信 区 间 是 密切 相关 的 . 使 用 Bootstrap svete 
最 简单 的 方法 就 是 基于 Bootstrap 置信 区 间 的 p 值 . 具体 来 说 , 考虑 对 某 一 参数 
的 原 假设 , 其 中 该 参数 的 估计 可 以 使 用 Bootstrap. 如果 对 该 参数 的 (1 - a)100% 
Bootstrap 置信 区 间 不 能 够 覆盖 原 假设 值 , 则 原 假设 以 不 超过 a 的 p 值 被 拒绝 . 置 
信 区 间 本 身 可 通过 分 位 点 方法 或 者 下 面 将 要 讨论 的 一 些 更 优越 的 方法 来 获得 . 
用 Bootstrap 置信 区 间 来 进行 假设 检验 通常 会 导致 统计 势 略 有 损失 . 若 Boot- 
strap 模拟 通过 使 用 一 个 与 原 假设 相合 的 抽样 分 布 而 进行 , 则 有 可 能 得 到 更 高 的 势 
[501]. 使 用 检验 统计 量 在 原 假设 下 的 抽样 分 布 是 假设 检验 的 基本 原则 . 不 幸 的 是 ， 
与 给 定 的 原 假设 相合 的 许多 不 同 的 Bootstrap 抽样 策略 都 需要 添加 各 种 比 原 假设 
本 身 需 要 的 更 多 的 限制 . 这 些 不 同 的 抽样 模型 就 会 得 到 不 同 效果 的 假设 检验 . 我 们 
需要 更 多 关于 如 何 进行 Bootstrap 假设 检验 的 的 经 验 和 理论 的 研究 工作 , 尤其 是 在 
原 假设 下 的 适当 的 Bootstrap 抽样 方法 . 对 于 一 些 特定 情形 下 的 策略 可 参见 [122， 
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159] 中 所 描述 的 方法 . 

尽管 Bootstrap 分 位 点 方法 使 用 简单 , 但 是 其 容易 得 到 有 偏 的 不 精确 的 覆盖 率 . 
当 9 是 位 置 参数 的 时 候 , Bootstrap 方法 具有 更 好 的 效果 . 这 对 于 使 用 分 位 点 方法 来 
说 格外 重要 . 为 确保 Bootstrap 的 效果 ，Bootstrap 统计 量 应 该 近似 是 枢 轴 的 : 它 的 
分 布 不 依赖 于 0 的 真 值 . 因为 方差 一 稳定 化 变换 9 自然 地 使 得 g( 5 0 独立 , 所 
以 它 经 常 提供 了 良好 的 枢 轴 性 . 9.3.2 节 将 讨论 一 些 依赖 于 枢 轴 量 来 改进 Bootstrap 
效果 的 方法 . 
分 位 点 方法 的 合理 性 

我 们 可 通过 考虑 一 个 连续 严格 单 增 的 变换 和 一 个 连续 对 称 (也 就 是 H(z) = 
1 一 五 (一 z)) 的 分 布 函数 H 来 验证 分 位 点 方法 的 合理 性 . o AH 具有 如 下 的 性 质 ， 


P [haya < $6) — 0) < hos] = 1-0, (0.1) 


其 中 , ha EH IN a 分 位 点 . 举例 来 说 , 如 果 o 是 一 个 标准 化 且 方差 稳定 化 的 变换 ， 
则 HH 是 标准 正 态 分 布 . 原则 上 , 当 F 连续 时 我 们 利用 单调 变换 G-!(F(z)) 可 将 任 
意 随机 变量 X ~ 下 变换 至 我 们 想 要 的 分 布 G. 所 以 对 于 标准 化 没有 特别 之 处 . 事 
KE, 分 位 点 方法 的 显著 之 处 在 于 我 们 从 来 都 不 真正 需要 显 式 地 确定 AH. 

对 (9.1) 使 用 Bootstrap 原则 , 我 们 有 


1-asP' [haa < A) — 48) < hoa/a] 
=P" [har +40) < AF) < hoy + 40)| 
=P" [6 (haj + 90) <È <4 (m-a +00®)]. (92) 
由 于 Bootstrap 分 布 是 观测 到 的 ， 其 分 位 点 就 是 已 知 的 分 位 数 (除了 一 定 程度 的 


Monte Carlo 362, 而 这 样 的 变 差 可 通过 增加 伪 数 据 集 的 数目 B 而 变 得 任意 小 ). 
令 ia BRP 的 经 验 分 布 函数 的 a 分 位 点 ， 则 o (haya + 60) = Saye 以 及 


$7 (hiap + $0)) ~ 1-0/2: 
接 下 来 , 我 们 重新 表示 用 于 构建 置信 区 间 的 原始 的 概率 等 式 (9.1) 以 使 其 与 6 
FER. 使 用 对 称 性 oye = 一 h1_oy2 可 得 
P [or (has + 4(0)) << (t1-a/2 + 4@)] =1-a. (9.3) 


上 式 中 置信 区 间 的 边界 与 (9.2) 中 的 刚好 吻合 ， 而 我 们 已 经 得 到 了 估计 Cp 和 
&1_a/2， 因 此 , 我 们 可 简单 地 从 Bootstrap 分 布 中 读 取 C 的 分 位 数 , 然后 用 它们 
作为 9 的 置信 区 间 边 界 . 注意 到 分 位 点 方法 是 变换 保持 的 , 也 就 是 说 9 的 单调 变换 
的 置信 区 间 与 9 本 身 的 区 间 的 变换 是 一 样 的 [159]. 
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9.3.2 ARE 
L 加速 偏 差 修正 分 位 点 方法 , BC, 

加 速 偏差 修正 分 位 点 方法 (BCu), 通常 能 够 对 简单 分 位 点 方法 提供 大 量 的 改进 
[142, 155). 车 想 使 基本 的 分 位 点 方法 很 有 效 , 那么 我 们 必须 要 求 变 换 后 的 估计 90) 
是 无 偏 的 , 且 其 方差 不 依赖 于 0. BC。 用 两 个 参数 增 大 o 来 更 好 地 满足 这 些 条 件 ， 
因此 确保 了 近似 枢 轴 性 . 

假设 存在 某 单 调 递增 的 函数 o 以 及 常数 a 和 b, 使 得 

_ $0 -000) ,» 


U= Tra) + (9-4) 


具有 N(0,1) 分 布 , 其 中 1 + ad(9) > 0. 注意 到 如 果 a = b = 0, 这 个 变换 就 是 简单 
分 位 点 方法 . 
使 用 Bootstrap 原则 ， 


y- 1-98) , 


1+ag(g) 05) 
近似 地 服从 标准 正 态 分 布 . 对 于 任意 标准 正 态 分 布 的 分 位 点 zw， 
am P'U" < za] 
=P* [F < 6 (6) + (za -D+ a9(8)))) . (9.6) 
然而 , 人 的 经 验 分 布 的 a 分 位 点 , 记 作 Ea, 可 从 Bootstrap 分 布 中 观测 得 到 . 因此 
$7 (60) + (za ~ + 00(6)]) ~ Ea. (9.7) 


为 了 使 用 (9.7), 考虑 U 本 身 : 
1-a=P[U > za] 
=P [9 <6 (66) + ula, b, a)l + ad))], (9.8) 
其 中 u(a,d,0) = a5. 注意 到 (9.6) 和 (9.8) 的 相似 性 . 如 果 我 们 可 以 找 一 个 
B 使 得 wwba) = zg — b, 那么 我 们 就 可 使 用 Bootstrap 原则 认为 9 < Ep 近似 是 
1 一 a 的 置信 区 间 上 界 . 使 用 这 个 条 件 的 逆 函 数 可 得 


B= 6b +u(a,b,a)) = (e + mss) ， (9.9) 
其 中 更 是 标准 正 态 分 布 的 累积 分 布 函数 , 而 最 后 的 等 式 是 由 对 称 性 得 到 的 . 因此 ， 
如 果 我 们 有 适当 的 a。 和 b, 则 为 了 得 到 1 -a 的 置信 区 间 上 界 , 我 们 可 先 计算 8, 然 
后 使 用 Bootstrap 伪 数 据 集 找到 P 的 经 验 分 布 的 8 分 位 点 , 也 就 是 £s. 
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对 于 双边 1 - a 置信 区 间 , 使 用 该 方法 得 到 P (Es, < 9 < En] = 1- a, 其 中 


n b+ za/2 
B= (e+ reta) (9.10) 
B =o (+ b+ 21-02 ) (9.11) 
2 1—a(b+ z1-a/2)/ ` 


H £p, il éo, 是 6* 的 Bootstrap 值 所 对 应 的 分 位 点 . 

作为 分 位 点 方法 , 上 述 BC。 的 优势 在 于 不 需要 变换 0 的 显 式 表达 . 进而 , 由 于 
BC 方法 仅仅 修正 了 用 于 决定 从 Bootstrap 分 布 中 读 取 的 置信 区 间 端 点 的 分 位 数 
水 平 , 所 以 它 具 有 简单 分 位 点 方法 的 变换 保持 性 质 . 

现在 剩 下 的 问题 就 是 关于 和) 的 选择 . 最 简单 的 非 参 数 选择 是 b= -1( 记 "(从 ) 


以 及 
12 n \3/2 
a=5 Sw / (È) (9.12) 
i=l i=l 
其 中 
i =O) i) (9.13) 


而 ôy 表示 含 去 第 i 个 观测 值 计算 得 到 的 统计 量 , LG.) = + È ê- 一 个 相近 
的 方案 是 令 > 
he lim + (r (a-9F +e) -T (F)), (9.14) 

其 中 5 表示 在 观测 zi 从 0 跳 至 1 的 分 布 函数 ( 即 在 zi 的 密度 是 1)，(9.14) 中 的 
Wi 可 通过 有 限 差分 来 近似 ， Shao 和 Tu 探讨 了 这 些 问 题 并 给 出 了 其 他 一 些 c 和。 
的 选择 方法 [501]. 
例 9.6 ( 铜 - 镍 合金 数据 , 续 ) ”我 们 继续 探讨 例 9.3 中 所 介绍 的 铜 - 镍 合金 数据 的 
EHE, 这 里 可 得 a = 0.048 6 (利用 (9.13)) Æ b = 0.008 02. 则 调整 后 的 分 位 数 
为 Bl = 0.038 和 62 = 0.986. 因此 BC. 的 主要 效果 就 是 将 置信 区 间 略 微 地 右 移 . 
最 终 所 得 的 置信 区 间 为 (—0.203, -0.172). 口 
2. Bootstrap t 

另 一 种 非常 容易 实现 的 近似 枢 轴 方法 是 Bootstrap t, 也 常 称 为 学 生化 Boot- 
strap [153, 159]. 假设 9 = T(F) 由 8 = T(F) 估计 , 而 V(F) 估计 和 的 方差 则 
使 用 R(X, F) = Z ee 是 较为 合理 的 . 对 R, F) 使 用 Bootstrap 可 得 到 一 组 
R(X", F). 

定义 人 和 Gt 分 别 为 R(T, F) 和 R(X, F) 的 分 布 . 由 定义 ,9 1-0 置信 


Xl 
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闻 可 由 如 下 关系 获得 


Pl€q/2(G) < R(X, F) < &-a/2(G)] 


=P |P- Vv Pia) <0 <8- Vv Pina] 


=1l-a, 


其 中 &6(G) AG 的 a 分 位 点 . 由 于 FF 是 未 知 的 (因此 人 也 是 ), 这 些 分 位 点 是 
未 知 的 ， 然 而 , Bootstrap 原则 意味 着 G 和 G* 应 该 大 致 相同 , 所 以 对 任意 的 a 
fa(@) = fa(G*). 因此 , 可 构建 如 下 的 Bootstrap 置信 区 间 


(TA) -Vv Be (0) - VVP) ea 


其 中 , G* WARLA R(X", F) 的 Bootstrap 值 的 直方 图 得 到 , 由 于 这 些 分 位 点 
是 在 分 布 的 尾部 , 所 以 为 了 达到 足够 的 精度 , 至 少 需要 数 千 的 Bootstrap 伪 数 据 集 . 
BI 9.7 ( 铜 - 镍 合金 数据 , 续 ) ”我 们 继续 探讨 例 9.3 中 所 介绍 的 铜 - 镍 合金 数据 的 
回归 问题 , 基于 delta 方法 的 A/A 的 方差 估计 VF) 为 


(2) (sg , D) = | 
Bo A B BoB ; 
其 中 估计 的 方差 和 协 方差 都 可 由 基本 的 回归 结果 得 到 . 使 用 Bootstrap t 方法 则 可 
得 到 图 9.2 所 示 对 应 G* 的 直方 图 ，G* 的 0.025 和 0.975 分 位 点 分 别 为 -5.77 和 
4.44, H. \/V(F) = 0.002 73. 因此 , 95% 的 Bootstrap t 置信 区 间 为 (—0.198, —0.169). 

口 


(9.16) 


R(x*, Ê) 
图 9.2 铜 - 锦 合金 数据 的 学 生化 Bootstrap 分 析 中 由 10 000 个 R(X*, Ê) 所 得 到 的 直方 图 


这 种 方法 需要 8 的 方差 估计 , 即 V(F). 如 果 没 有 合适 的 估计 , 则 可 使 用 [122] 
中 的 delta 方法 来 近似 . 
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使 用 Bootstrap 上 方法 通常 能 够 得 到 非常 接近 名 义 置 信 水 平 的 置信 区 间 和 覆盖 率 . 
“47 (F) 近似 地 是 一 个 位 置 参 数 (也 就 是 若 给 所 有 数据 值 一 常数 位 移 则 T( 户 ) 会 体 
现 出 同样 的 位 移 ), Bootstrap t 方法 最 可 靠 . 该 方法 对 于 方差 - 稳定 化 的 估计 也 很 有 
效 . Bootstrap t 区 间 的 覆盖 率 对 数据 中 的 异常 点 比较 敏感 , 故 在 此 情况 下 使 用 该 方 
法 应 当 更 加 小 心 . Bootstrap t 没有 分 位 点 方法 所 具有 的 变换 保持 的 性 质 . 
3， 经 验方 差 稳定 化 

方差 -稳定 化 变换 通常 是 良好 枢 轴 的 基础 . 估计 6 的 方差 -稳定 化 变换 就 是 为 
了 使 变换 后 的 估计 的 抽样 方差 不 依赖 于 0. 通常 欲 Bootstrap 的 统计 量 的 方差 - 稳 
定 化 变换 是 未 知 的 , 但 我 们 可 用 Bootstrap 来 估计 它 . 

首先 抽取 Bı 个 Bootstrap 伪 数 据 集 Xt, j = 1,… , Bi. 对 每 个 Bootstrap 伪 
数据 集 计算 6;, He F; 为 第 j 个 Bootstrap 伪 数 据 集 的 经 验 分 布 函数 ， 

对 每 个 X, 接 下 来 从 Fy 中 抽取 Bs 个 Bootstrap 伪 数 据 集 XT,- , Ag, 对 


15 Bo 


于 每 个 j, & Ost 表示 由 第 k 个 子 样 得 到 的 参数 估计 , HS Os Oe 的 均值 . 则 


S) = 


5- z 2 (Sz = yy (9.17) 


为 给 定 0 = OF 下 Adieu 

对 点 集 GE O)}.G=1- B 拟 合 一 条 曲线 . 可 参见 第 11 章 中 许多 灵活 的 
非 参数 的 方法 . 拟 合 的 曲线 是 9 和 它 的 估计 的 标准 误 之 间 关 系 的 一 种 估计 . 我 们 试 
图 寻找 一 个 方差 -稳定 化 变换 来 消除 这 种 关系 . 

回想 如 果 Z 是 一 均值 6 方差 s(9) 的 随机 变量 , 则 由 Taylor 展开 (也 就 是 delta 
方法 ) 可 得 到 var{g(2)} ~ 9/(0)?s?(0). 若 想 使 9(2) 的 方差 为 常数 , 我 们 需要 

g(z) = f a" (9.18) 

其 中 a 是 任意 方便 的 常数 使 得 iy 在 (a, 2] 上 是 连续 的 ， 因 此 , 我 们 可 通过 对 前 
一 步 的 拟 合 曲线 使 用 (9.18) 来 获得 Bootstrap 数据 的 一 个 6 的 近似 方差 -稳定 化 变 
K 积分 可 由 第 五 章 中 的 数值 积分 技术 来 近似 . 记 结果 为 8(b). 
现在 我 们 已 经 估计 了 一 近似 方差 -稳定 化 变换 , 接 下 来 就 可 在 变换 后 的 尺度 上 
使 用 Bootstrap t 方法 ， 从 F 中 抽取 Bs 个 新 的 Bootstrap 伪 数 据 集 , 然后 使 用 
Bootstrap t 方法 来 找到 5(9) 的 一 个 置信 区 间 . 但 是 要 注意 , 3(6) 的 标准 误 约 为 一 
常数 , 所 以 我 们 可 以 使 用 R(A*, P) = 9(6*) -9(6) Rit Bootstrap t 置信 区 间 . 最 
终 , 所 得 区 间 的 端点 值 可 通过 使 用 变换 9-! 转 回 到 6 的 尺度 上 . 

这 种 从 每 一 个 原始 伪 数据 集 抽 取 迁 代 bootstrp 伪 数 据 集 的 方法 在 很 多 情形 下 
都 相当 有 用 . 事实 上 , 它 是 下 面 将 要 描述 的 置信 区 间 构 造 方法 的 基础 . 
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4. #&4#& Bootstrap 及 预 枢 轴 化 

另 一 种 枢 轴 化 的 方式 是 嵌 套 Bootstrap [23, 24]. 有 时 也 称 该 方法 为 迭代 或 者 双 
Bootstrap. 

给 定 由 模型 Xi, Xn viid. F 观测 得 到 的 数据 z1,… , zn, 考虑 基于 检验 
统计 量 R(X, F) 构造 置信 区 间或 者 进行 假设 检验 . 令 Fola, F) = PIRX, F) < q). 
由 Fy 的 定义 可 看 出 Ro 分 布 显 式 地 依赖 于 Ro 中 所 用 数据 的 分 布 . 我 们 可 由 下 面 
的 式 子 来 获得 一 个 双边 的 置信 区 间 


P|F5 '(a/2, F) < Ro(¥, F) < Fy (1 - a/2,F)] =1—a, (9.19) 
及 基于 下 式 的 假设 检验 
P[Ro(¥, F) < 而 Iaw 下 =1=-a- (9.20) 


当然 , 这 些 概率 依赖 于 Fo 的 未 知 的 分 位 数 . 在 估计 问题 中 , FP 未知; 对 于 假设 
检验 问题 , F 的 原 假设 是 已 知 的 . 而 在 上 述 两 种 情况 中 , Ro 的 分 布 均 未 知 . 我 们 可 
以 利用 Bootstrap 方法 近似 Fo 及 其 分 位 数 . 

Bootstrap 方法 一 开始 先 从 经 验 分 布 F 中 抽取 B 个 Bootstrap 伪 数 据 集 ， 
Xt Xp 对 于 第 j 个 Bootstrap 伪 数 据 集 , 计算 统计 量 Ro(X, P). & Pola, F) = 
BE Umag pep ,其 中 如 果 A AS 则 1 = 1 BRL Ht = 0. 因此 我 们 用 
f 估计 Pt [Ro (xF) < 4; 根据 Bootstrap 原则 用 P* [Ro (xF) < a) 估计 
P [R(X F) < q] = Fola, 下 ). 这 样 置信 区 间 上 界 的 估计 为 Fo’ (1- a/2, P), 或 者 
当 Po (fc En}, F) > Bt (1 -a,F) 时 , 拒绝 原 假 设 ， 这 就 是 一 般 的 非 参 数 
Bootstrap 方法 . 

然而 , 我 们 注意 到 按照 这 种 方法 构造 的 置信 区 间 覆 盖 率 不 能 正好 等 于 1- o, 这 
是 由 于 高 仅 是 R(X, F) 分 布 的 一 个 近似 . 同样 的 道理 , 由 于 Flg, F) 4 Pola, Ê), 
所 得 假设 检验 的 大 小 P [mx F)> Fo} (1 =a, F)| fa. 

分 布 Fy 未 知 还 使 我 们 失去 了 一 个 非常 好 的 枢 轴 量 : 随机 变量 R(X, F) = 
Fo(Ro(4, F), F) 服从 一 个 标准 均匀 分 布 并 与 F 相互 独立 . Bootstrap 原则 用 Fy ik 
似 Fo, 并 因此 用 R(X, F) = Fy (RoW, F), F) 近似 R(X, F). 于 是 我 们 可 以 基于 
R(X, F) 与 一 个 均匀 分 布 的 分 位 数 的 比较 作出 Bootstrap 推断 ,在 假设 检验 问题 
中 , 这 就 意味 着 我 们 可 基于 Bootstrap 的 p- 值 接受 或 者 拒绝 原 假设 . 

然而 , 我 们 可 用 R(X, F) ~ Fy, 其 中 五 是 非 均匀 分 布 , 来 代替 R(X, F). 令 
Fi(q, F) = P[R (X, F) > q). WH Ri > Fo (1-a, F) 时 ,满足 条 件 的 检验 拒绝 原 假 
设 . AA ERBRS FORK H PIF (a/2,F) < R(X, F) < F 一 of2, 
PF) = 1 一 a 得 到 . 与 之 前 一 样 , Fi 未 知 但 可 利用 Bootstrap 近似 . 现在 R, 的 随机 
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性 来 自 两 个 方面 : (1) 观测 数据 是 对 F 的 随机 观测 以 及 (2) 在 给 定 观 测 数据 (给 定 
P) 的 条 件 下 , Ry 通过 F 的 随机 再 抽样 计算 得 到 . 为 获得 这 两 种 随机 性 , 我 们 使 用 
FERRE Bootstrap 算法 : 

(1) ÆR Bootstrap WARR 47,---, Xho 其 中 每 个 数据 集 都 可 看 作 是 有 放 回 
地 从 原始 数据 中 抽取 的 独立 同 分 布 的 随机 样本 . 

(2) 计算 Ro(X},F), j = 1,… , Bo. 

(3) 对 于 j= 1,- , Bo: 

Oh HA 的 经 验 分 布 函数 , 重复 抽取 Bi 个 Bootstrap YBBR, V, 
as, 其 中 每 个 数据 集 都 可 看 作 是 抽取 自 F 独立 同 分 布 的 随机 样本 ; 

@ 计算 Ro (457,85), k= 1,0, Bi; 

@ 计算 


Rala}, P) = Fo(Ro(X},F), P= ED News nÊ<R AY (9.21) 


(4) 记 Rtr, P) 的 经 验 分 布 函数 为 R. 

(5) 利用 Ri({x1, an}, F) 和 A 构造 置信 区 间或 假设 检验 . 

第 1 步 和 第 2 步 通过 应 用 Bootstrap 原则 用 Ê 近似 F, 从 而 获得 第 一 种 随机 
性 , 第 3 步 获得 第 二 种 随机 性 , 而 第 二 种 随机 性 是 当 Ro 以 P 为 条 件 作 Bootstrap 
抽样 时 , 在 Ri 中 引入 的 . 
例 9.8 ( 铜 - 镍 合金 , 续 ) ” 回 到 例 9.3 中 介绍 的 回归 问题 , 令 Ro({z1,… ais}, F) = 
& - &, 图 9.3 表示 的 是 由 嵌 套 Bootstrap 方法 获得 的 A 值 的 直方 图 ， 其 中 
Bo = Bi = 300. 图 中 的 分 布 表明 A 与 均匀 分 布 存在 着 很 大 的 差异 . 实际 上 , R 
Æ Bootstrap 方法 给 出 的 R, 的 0.025 和 0.975 的 分 位 数 分 别 为 0.031 6 和 0.990. 
因此 我 们 能 找到 Ro(X*, F) 的 3.16% 和 99.0% 的 分 位 点 , 并 可 用 其 构造 Pi/6o 
置信 区 间 , 即 (一 0.197, —0.168). 


40: 
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图 9.3 E Bootstrap WEST ARE SHEA 300 个 R(X", F) 值 的 直方 图 
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REA BES ME Bootstrap 方法 比 其 他 的 枢 轴 方法 要 慢 得 多 : 在 这 种 情况 
下 , Bootstrap 方法 比 前 面 的 方法 要 多 抽取 9 次 样本 . 也 有 一 些 重新 加 权 的 方法 , 比 
如 可 以 重复 使 用 初始 样本 的 Bootstrap 循环 方法 , 从 而 可 以 减少 计算 量 [121, 413). 


9.3.3 ”假设 检验 


前 面 关 于 Bootstrap 构造 置信 区 间 的 讨论 与 假设 检验 也 密切 相关 . 若 一 个 原 假 
设 下 的 参数 值 落 在 置信 度 为 (1 一 a)100% 的 置信 区 间 外 , 则 在 p- WA a 的 水 平 被 拒 
绝 . Hall 和 Wilson 对 于 提高 Bootstrap 假设 检验 的 势 和 精度 给 出 了 一 些 方法 [263]. 

首先 , 实施 Bootstrap 重 抽样 应 以 反映 原 假设 的 方式 进行 . 为 理解 其 含意 , 考 
虑 一 个 一 元 参数 9 的 值 为 go 的 原 假设 . 令 检验 统计 量 为 R(Y, F) = 0-00. HH 
本 倾向 于 简单 双边 备 择 假 设 , 即 与 基准 的 分 布 比较 , |6 - bo| 很 大 时 , 将 拒绝 原 假设 . 
为 获得 基准 分 布 , 我 们 可 能 感觉 通过 Bootstrap 再 次 抽样 R(XY*, F) = 0* — 06 应 该 
可 行 . 但 是 , 如 果 原 假设 是 错误 的 , 则 此 统计 量 没有 正确 的 基准 分 布 . 如 果 00 距离 
真实 值 9 很 远 , 则 与 |9* — bo| 的 Bootstrap 分 布 比较 |6 — bo| 就 不 会 有 那么 大 的 距 
离 . 而 一 种 更 好 的 方法 是 使 用 R(X", P) = 6° — 6 的 值 产生 R(X, F) 原 假设 的 一 个 
Bootstrap 估计 . 当 0o 远离 真实 值 9 时 , 相 比 |6 一 gol, |6* — Ô| 的 Bootstrap 值 非常 
小 . 因此 ， 6- go 与 6 -6 的 Bootstrap 分 布 比较 可 得 到 更 大 的 势 . 

其 次 , 我 们 再 次 强调 使 用 恰当 枢 轴 量 的 重要 性 . 使 用 枢 轴 量 最 好 的 做 法 往往 是 
基于 (6° - 6)/6* 的 Bootstrap 分 布 进行 假设 检验 , 其 中 6* 为 9* 的 标准 差 的 一 个 
不 错 的 估计 值 , O° 是 由 一 个 Bootstrap 伪 数 据 集 计算 得 到 的 . 这 种 枢 轴 量 方法 通常 
优 于 根据 (6° 一 0)/6, (Ô* 一 00)/6, 0° — 6 BRA 6° — bo 的 Bootstrap 分 布 进行 假设 检 
验 的 方法 , 其 中 5 为 6 标准 差 的 由 原始 数据 集 计 算得 到 的 估计 . 


9.4 ”缩减 Monte Carlo 误差 


9.4.1 平衡 Bootstrap 


考虑 一 个 样本 均值 的 Bootstrap 偏差 的 修正 . 因为 X 是 真实 均值 p 的 无 偏 估 
计 , 这 时 偏差 的 修正 值 应 该 等 于 0. WA, R(X, PF) = X — p, 且 其 对 应 的 Bootstrap 
值 为 R,P) = X>-—X, 其 中 j = 1,.… ,B. 尽管 XK 是 无 偏 的 , 随机 选择 的 伪 
数据 集 不 可 能 得 到 一 个 均值 正好 为 0 的 R, A) 值 的 集合 . 在 此 情况 下 , 一 般 的 
Bootstrap 方法 出 现 了 不 必要 的 Monte Carlo 变 差 . 

然而 , 如 果 每 个 数据 值 出 现在 Bootstrap 伪 数 据 集 的 联合 集合 中 的 频率 与 在 观 
测 数据 中 的 相同 , 则 Bootstrap 偏差 的 估计 大 去 R(X}, P) 一 定 等 于 0. 通过 这 种 


方式 平衡 Bootstrap 数据 , 潜在 的 Monte Carlo 误差 出 现 的 根源 就 被 去 除了 . 
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达到 平衡 的 最 简单 方法 是 连接 观测 值 的 B 个 副本 , 随机 排列 这 些 序列 , 并 且 依 
次 读 入 B 组 大 小 为 n 的 数据 . 第 j 组 数据 作为 2}. 这 种 方法 即 为 平衡 Bootstrap 
方法 一 一 有 时 也 称 为 排列 Bootstrap 方法 [123]. 当前 还 有 很 多 改进 的 平衡 算法 
[223], 而 其 他 一 些 缩减 Monte Carlo 误差 的 方法 可 能 更 容易 或 者 更 有 效 [159]. 
9.4.2 B Bootstrap 方法 


一 元 数据 样本 , r1, ,zn, 按 大 小 顺序 排列 后 , 定义 为 xD，…… ,zx(n), 其 中 ay 
为 第 i 个 次 序 统计 量 的 值 ( 即 , 第 i 小 的 数据 值 ). 令 rli) = n-itil 为 次 序 统 
计量 反方 向 排序 的 算 子 ， 则 对 每 一 个 Bootstrap 数据 集 X* = {X} 令 
X= {XP XE A 中 的 每 一 个 Xo 替换 成 Xaa 而 获得 的 数据 集 . 
此 , 例如 , 如 果 4* 中 较 大 的 观测 值 占 主导 地 位 , 则 在 a 中 较 小 的 观测 值 将 占据 
主导 地 位 . 

用 这 种 方法 , 每 一 个 Bootstrap 抽样 可 给 出 两 个 估计 : R(X", FP) 和 R(x", P). 
这 两 个 估计 常常 是 负 相 关 的 . 例如 , 如 果 在 样本 均值 中 R 是 单调 统计 量 , 则 这 两 个 
估计 可 能 是 负 相 关 的 [349]. 

令 Ra(X*,F) = (R(X*, F) + RE P). 则 Re 有 所 需 的 性 质 , 即 如 果 协 方 
差 为 负 , 那么 所 估计 的 感 兴趣 的 量 的 方差 为 


var{ Ra(X*, F)} = 1 (var{ R(x", P)} + var{ R(X™, F)} 
+2cov{ R(X", Ê), RX, F)}) 
<var{R(4*, F)}. (9.22) 


还 有 一 些 巧妙 的 方法 可 用 来 建立 多 元 数据 排序 , 从 而 也 可 使 用 反 向 Bootstrap 
方法 [257]. 


9.5 Bootstrap 方法 的 其 他 用 途 


将 x* 看 作 分 布 FE 的 一 个 随机 样本 , E 中 含有 未 知 参数 8，Bootstrap 原则 可 
看 作 近 似 似 然 函数 的 工具 . Bootstrap 似 然 是 与 经 验 似 然 密 切 联系 的 一 种 方法 . 通 
过 给 似 然 成 分 随机 加 权 的 方法 , 我 们 可 得 到 一 种 Bayes Bootstrap 方法 [469]. 这 种 
方法 的 进一步 推广 称 为 加 权 似 然 Bootstrap 方法 , 它 是 一 种 在 某 些 困难 的 情况 下 近 
似 似 然 曲面 的 有 效 工具 [414]. 

Bootstrap 方法 通常 用 于 评价 一 个 估计 的 统计 精度 以 及 准确 性 ，Bootstrap 聚 
集 方法 , 或 者 打包 方法 , 用 Bootstrap 方法 提高 本 身 的 估计 [57]. 假设 R(X, F) 是 一 
个 使 用 Bootstrap 方法 抽样 的 量 , 并 且 仅 通过 9 依赖 于 F. 于 是 我 们 有 , R(X, 0) 的 
Bootstrap 值 为 R(X*,0). 在 有 些 情况 中 , 9 是 执行 一 次 模型 模拟 的 结果 , 其 中 模型 
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是 不 确定 或 不 稳定 的 . 例如 , 分 类 和 回归 树 , 神经 网 络 以 及 线性 回归 中 的 子 集 选择 
等 这 些 依赖 于 模型 的 问题 , 当 数 据 发 生 微小 变化 时 , 它们 的 模型 形式 可 能 发 生 很 大 

变化 . 
这 时 ， 预测 或 者 估计 中 变 差 的 主要 来 源 可 能 来 自 于 模型 形式 .打包 方法 是 用 
Pa 6; 代替 6, 其 中 全 为 第 j 个 Bootstrap 伪 数 据 集 得 到 的 参数 估计 . 由 


于 每 个 Bostetrag 伪 数 据 集 表 示 原 始 数据 的 一 种 扰动 形式 , 拟 合 每 个 伪 数据 集 的 模 
型 在 形式 上 可 能 变化 非常 大 . 因此 6” 提供 了 某 种 模型 平均 的 效果 , 从 而 当 扰动 数 
据 可 能 给 6 带 来 很 大 改变 时 , 可 减少 估计 的 均 方 误差 . 模型 平均 化 思想 的 回顾 可 参 
见 [289]. 

另 一 个 相关 的 方法 称 为 模型 参数 的 Bootstrap SRA 西点 方法 [536]. 使 用 打 
包 方法 处 理 问 题 时 , 注意 到 用 打包 后 得 到 的 估计 均值 作为 估计 的 模型 并 不 总 与 拟 合 
数据 的 模型 同类 . 如 , 分 类 树 的 均值 就 不 是 分 类 树 . 凸 点 方法 则 不 存在 这 一 问题 . 

假设 h0, X) 是 对 应 估计 的 某 个 目标 函数 , 该 目标 函数 的 意思 是 说 h 的 值 越 
大 其 所 对 应 的 9 就 与 更 加 一 致 . 例如 , h 可 以 是 对 数 似 然 函数 ， 凸 点 方法 道 过 
6; = arg maxg h(0, 性) ÆR Bootstrap 伪 数据 集 . 原始 数据 集 包含 在 Bootstrap 14 
数据 集 之 中 , 并 且 9 的 最 终 估计 为 最 大 化 h(9,*) 的 65. 因此 , 凸 点 方法 可 看 作 是 
一 种 为 寻找 产生 好 估计 的 模型 而 搜索 整个 模型 空间 (或 者 将 其 参数 化 ) 的 方法 . 


9.6 Bootstrap 近似 的 阶 


本 章 给 出 的 所 有 Bootstrap 方法 依赖 的 一 个 原则 就 是 Bootstrap 分 布 应 该 与 我 
们 感 兴趣 的 量 的 真实 分 布 近似 , 标准 参数 方法 , 如 t- 检验 以 及 对 数 似 然 比 与 x? 分 
布 的 比较 都 依赖 于 分 布 近似 . 

我 们 已 经 讨论 了 在 相关 数据 中 不 能 使 用 Bootstrap 近似 的 情况 . 比如 , 考虑 用 
Bootstrap 方法 得 到 样本 均值 作为 某 个 平稳 时 间 序列 均值 的 估计 , 其 中 时 间 序列 在 
延迟 时 刻 ! 的 自 相关 系数 为 p.. 于 是 X 的 方差 为 A +25 (1-4) pl, MiA 


Bootstrap 均值 X* 的 方差 约 为 o2/n. 这 两 个 量 经 常 相差 很 多 ， 这 种 情况 下 不 能 用 
一 般 的 Bootstrap 方法 的 原因 在 于 再 抽样 破坏 了 原始 数据 中 的 相关 结构 . [122, 159, 
344, 352, 518] 讨论 了 Bootstrap 方法 如 何 应 用 于 相关 数据 .Bootstrap 方法 也 不 能 
用 来 估计 极 值 . 例如 , Bootstrap 样本 最 大 值 可 能 得 到 非常 糟糕 的 结果 ; 详 见 [122]. 
最 后 , Bootstrap 方法 还 不 能 用 于 厚 尾 分 布 . 此 时 , Bootstrap 抽样 的 异常 点 出 现 得 
过 于 频繁 . 

关于 Bootstrap 方法 的 相合 性 和 收敛 速率 有 非常 重要 的 极限 理论 , 由 此 我 们 可 
以 给 出 Bootstrap 形式 化 的 近似 阶 . 这 些 结论 超出 了 本 书 讨论 的 范围 , 下 面 我 们 只 
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介绍 一 些 主要 的 想法 . 

Glivenko-Cantelli 定理 [401] 指出 当 m 一 co 时 , P [supe |F(a)—F(a)|0] =1. 
此 当 了 是 光滑 函数 时 , 显然 有 了 (局 > TCP). 正式 的 定理 在 (497) 中 给 出 . 本 章 
主要 考虑 plug-in 估计 , Mh T(F) 估计 T(F). 即使 对 于 形式 上 稍 有 不 同 的 估计 , 记 
A T,(F), Bootstrap 方法 通常 还 是 可 用 的 , 只 要 以 一 定 的 速率 T >T. 例如 , 一 般 
的 样本 方差 统计 量 相 比 plug-in 估计 差 一 个 因子 n/(n - 1). 然而 , 由 于 样本 方差 是 
总 体 方差 的 无 偏 且 相 合 估计 , 因此 它 仍 是 一 个 可 用 Bootstrap 方法 的 合理 估计 . 

更 一 般 地 , 考虑 一 个 合理 的 包含 F 的 分 布 函数 空间 , 并 且 令 Np 为 F 的 邻 域 ， 
F 以 概率 1 最 终 落 入 邻 域 . 如 果 标准 化 的 R(X,G) 分 布 是 一 致 弱 收敛 的 , ER x 的 
元 素 抽取 自 Ge Nv, 并 且 如 果 从 G 到 对 应 的 R 的 极限 分 布 是 连续 的 , 则 Bootstrap 
是 相合 的 [122]. 所 谓 一 致意 味 着 对 于 任意 e q, 当 n 一 co 时 ， 


P* [|PIR(X*, Ê) < a) - PIRX, F) < all >] = 0. 


我 们 可 用 Edgeworth 展开 来 衡量 收敛 率 [258]. 当 R(X, F) 构造 为 渐进 枢 轴 量 
R, Bootstrap 的 一 般 收敛 率 为 P*[R(X*, F) < a] - PIRX, F) < q] = Op (n). 车 
没有 枢 轴 化 , 收敛 率 一 般 仅 为 Opn!) 换言之 , 用 基本 的 、 未 枢 轴 化 的 分 位 点 方 
法 得 到 的 单 边 置信 区 间 的 覆盖 率 的 精度 为 O(n-1/?), 而 用 BC, 和 Bootstrap t 方法 
得 到 的 精度 为 O(n-!). 对 于 双边 置信 区 间 , 有 三 种 方法 可 以 达到 精度 O(n-!). 使 用 
FREE Bootstrap 方法 提高 精度 主要 依靠 的 是 原始 区 间 的 精度 和 区 间 的 类 型 : 对 于 一 
个 双边 , 等 尾 的 区 间 , KE Bootstrap 方法 可 将 覆盖 率 误差 从 O(n-!) 降 至 O(n-?). 
这 些 收 敛 结果 对 大 部 分 常见 的 推断 问题 都 适用 ， 其 中 包括 样本 矩 的 光滑 函数 的 估 
计 以 及 光滑 极 大 似 然 函 数 的 解 等 问题 . 用 BC。 RÆ Bootstrap, 以 及 其 他 改进 的 
Bootstrap 方法 提高 收敛 率 的 讨论 在 [122, 159] 中 给 出 . 进一步 的 理论 研究 参见 [41， 
258, 501). 


9.7 置换 检验 


除 Bootstrap 外 , 还 有 一 些 其 他 重要 的 技术 , 它们 同样 基于 试验 获得 的 观测 数 
据 集 来 做 出 统计 推断 . 这 些 技术 中 最 重要 的 一 项 可 能 就 是 传统 的 置换 检验 了 , 其 历 
史 可 追 溯 到 Fisher [170] 和 Pitman [433, 434] 的 时 代 . 关于 置换 检验 的 综合 介绍 见 
[150, 240, 372]. 而 其 基本 方法 很 容易 通过 一 个 假设 检验 的 例子 给 予 说 明 . 
例 9.9 (相互 独立 的 两 组 均值 的 比较 ) ”一 个 医学 实验 中 , 作为 实验 对 象 的 老鼠 被 
随机 分 成 治疗 组 和 对 照 组 . 观测 值 X; 是 对 i 只 老鼠 的 测量 值 . 在 原 假设 下 , 观测 值 
与 老鼠 是 否 属于 治疗 组 或 是 对 照 组 无 关 . 在 备 择 假设 下 , 对 属于 治疗 组 的 老鼠 的 观 
测 值 应 比较 大 . 
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检验 统计 量 T 用 来 测量 两 个 组 观测 值 的 差别 . 比如 , T 可 为 两 个 组 观测 值 均值 
的 差 , 对 于 已 经 观测 到 的 数据 集 , T HREN ti. 

在 原 假设 下 , 给 老鼠 个 体贴 上 标签 “治疗 组 ”或 “对 照 组 ”是 没有 意义 的 ， 
为 这 不 会 影响 最 后 观测 的 结果 . 由 于 这 样 做 没有 意义 , 我 们 可 以 随机 给 老鼠 换 标签 
而 不 改变 数据 的 联合 零 分 布 . 而 重 换 标签 可 以 创建 一 个 新 的 数据 集 : 虽然 我 们 得 到 
原始 观测 的 一 组 值 , 然而 重新 分 配 后 得 到 的 不 同 的 治疗 组 和 对 照 组 又 会 带 来 新 的 结 
SR. 由 于 实验 是 随机 分 配 的 , 因此 每 个 置换 数据 集 被 观测 到 的 可 能 性 与 实际 数据 被 
观测 到 的 可 能 性 相同 . 

S to 是 从 第 一 次 置换 标签 得 到 的 数据 集中 计算 出 的 检验 统计 量 的 值 . 假设 对 
所 有 的 M 种 可 能 的 标签 置换 (或 者 是 大 量 的 随机 选择 的 置换 ) 计算 检验 统计 量 的 
值 , 从 而 得 到 to,… ,tm. 

在 原 假设 下 , 产生 to,… ,tw 的 分 布 与 产生 t 的 分 布 相同 . 因此 , t 可 以 与 
to,… ,tw 的 经 验 分 位 数 比 较 来 检验 假设 或 者 构造 置信 限 . o 

为 更 严格 地 说 明 这 种 方法 , 假设 一 个 检验 统计 量 7 的 观测 值 为 t, 在 原 假设 下 
其 密度 函数 为 f. 假设 T 值 很 大 表示 原 假设 错误 . Monte Carlo 假设 检验 从 f 中 抽 
取 一 个 容量 为 M-16 T 的 随机 样本 . 如 果 观 测 值 t 为 所 有 M 个 值 中 第 k 大 的 
值 , 则 在 显著 性 水 平 k/M F, 拒绝 原 假设 . 如 果 检 验 统 计量 的 分 布 是 离散 的 , 则 需 
要 一 定 的 节点 处 理 方法 . Barnard [20] 就 是 以 上 述 方式 给 出 的 置换 检验 ; 关于 置换 
检验 的 进一步 展开 参见 [32, 33]. 

目前 有 很 多 从 检验 统计 量 的 零 分 布 抽 样 的 方法 . 例 9.9 中 的 置换 方法 之 所 以 
AM, 原因 在 于 , 在 原 假设 下 “治疗 组 ”和 “对 照 组 ”的 标签 没有 实际 意义 , 可 以 
完全 随机 分 配 并 且 与 所 得 结果 独立 .这 种 简单 的 置换 方法 可 被 推广 应 用 到 多 种 更 
复杂 的 情况 . 而 在 任何 情况 下 , 置换 检验 都 在 很 大 程度 上 依赖 可 交换 的 条 件 . 如 果 
不 论 观测 值 的 顺序 如 何 , 任 一 特定 的 联合 输出 结果 的 概率 都 是 相同 的 , 则 称 数据 可 
交换 . 

相 比 Bootstrap 方法 , 置换 检验 存在 两 个 优势 .首先 , 如 果 和 置换 数据 产生 的 偏 
差 是 随机 分 配 的 , 则 所 得 p- 值 是 精确 的 (如 果 考 虑 到 所 有 置换 ). 对 于 这 样 的 试验 ， 
此 方法 通常 被 称 为 随机 化 检验 . RZ, 标准 的 参数 方法 和 Bootstrap 方法 是 建立 在 
渐 近 理论 基础 上 的 , 这 对 大 容量 的 样本 很 有 意义 . 其 次 , 置换 检验 与 Bootstrap 相 
比 往往 有 更 大 的 势 . 然而 , 置换 检验 是 一 种 专门 用 来 比较 分 布 的 工具 , 而 Bootstrap 
检验 的 是 关于 参数 的 假设 , 因此 后 者 需要 的 条 件 没有 那么 严格 同时 有 着 更 大 的 灵活 
性 . 相 比 置换 检验 给 出 的 纯粹 的 p- 值 , Bootstrap 方法 可 给 出 更 可 靠 的 置信 区 间 和 
标准 误差 . 而 置换 分 布 中 观测 的 标准 差 并 不 是 一 个 可 靠 的 标准 误差 估计 . 其 他 关于 
选择 置换 检验 或 者 Bootstrap 方法 的 指导 参见 [159, 240, 241]. 
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第 9 章 Bootstrap 方法 


问 题 


令 六 ,Xn wiid. Bernoulli (9). 定义 R(X, F) = X-6 以 及 R* = R(X*,P), 
其 中 xt 是 一 个 Bootstrap WAER, F 是 数据 的 经 验 分 布 . 求 出 精确 的 E*{R*} 和 
var*{R*}. 
假设 9 = glu), 其 中 g 是 一 个 光滑 函数 并 且 几 是 产生 数据 的 分 布 的 均值 . 考虑 Bootstrap 
R(X, F) = 9(X) — 9()- A 
(a) 证 明 E*{X*} =z H var"{X*} = fio/n, HP fir = Y (z: — 2). 

£ 
(b) 利用 Taylor 展开 证 明 


A - p 9 @ie _ g” (Z)iis 
ER 月 } = OE, a 
和 


An? 
对 于 9.3.2 节 第 1 部 分 中 的 BCa, 说 明 选择 b 的 理由 . 
K 9.3 给 出 了 一 个 鱼 鱼 种 群 40 年 的 新 生 幼 鱼 和 产 卵 肉 鱼 的 数量 ， 产 卵 峻 鱼 是 指 将 要 产 
Mita. 产 卵 肉 鱼 在 产 卵 后 死去 . 


var" (R(X", PB)} = Aap _ 9 @? (m -= &) eg 


表 9.3 40 年 的 鱼 群 数据 : 新 生 幼 鱼 的 数量 (R) 和 产 卵 肉 鱼 的 数量 (S) 


R S R S R sS R Ss 
68 56 222 351 311 412 244 265 
77 62 205 282 166 176 222 301 
299 445 233 310 248 313 195 234 
220 279 228 266 161 162 203 229 
142 138 188 256 226 368 210 270 
287 428 132 144 67 54 275 478 
276 319 285 44T 201 214 286 419 
115 102 188 186 267 429 275 490 
64 51 224 389 121 115 304 430 
206 289 121 113 301 407 214 235 


刻画 新 生 幼 鱼 和 产 卵 肉 鱼 数量 关系 的 经 典 Beverton-Holt 模型 可 以 表述 如 下 
1 
R= Fa Bı > 0, Be > 0, 

其 中 RA SHAARI EERE [40]. 此 模型 可 用 变换 后 的 变量 1/R A 
1/5 的 线性 回归 来 拟 合 . 

考虑 一 个 维持 鱼 群 可 持续 发 展 的 问题 . 鱼 群 总 体 的 丰 度 仅 在 R= 5 时 才能 达到 稳 
E. 如 果 新 生 幼 鱼 的 数量 少 于 产 卵 肉 鱼 产 卵 后 死 掉 的 数量 , 则 总 体 数量 减少 . 如 果 新 生 
幼 鱼 过 多 , 总 体 数量 最 终 也 会 减少 , 这 是 由 于 鱼 群 不 能 获得 足够 的 食物 . 因此 , 只 有 新 生 


9.5 


9.6 


9.7 
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幼 鱼 的 数量 达到 某 个 中 等 水 平 才 能 够 保证 维持 总 体 数量 在 一 个 稳定 的 状态 . 这 个 稳定 的 

总 体 水 平 出 现在 45° 直线 与 R 和 S 对 应 曲线 的 交点 处 

(a) 拟 合 Beverton-Holt 模型 , 并 寻找 稳定 总 体 水 平 在 R= S 处 的 点 估计 . 利用 Boot- 
strap 方法 获得 一 个 与 你 的 估计 对 应 的 95% 的 置信 区 间 和 标准 误差 , 要 求 使 用 两 种 
方法 Bootstrap 残 差 以 及 Bootstrap 观测 ， 画 出 每 个 Bootstrap 分 布 的 直方 图 ， 
并 说 明 所 得 结果 之 间 的 区 别 . 

(b) 给 出 一 个 偏差 修正 的 估计 以 及 该 修正 估计 对 应 的 标准 误差 . 

(c) RARE Bootstrap 寻找 稳定 点 的 95% 的 置信 区 间 . 

利用 抗坏血酸 治疗 胃癌 及 乳腺 癌 晚 期 患者 以 延长 其 生存 时 间 [76]. 表 9.4 给 出 的 是 生存 

时 间 (天 数 ). 使 用 数据 时 , 数据 取 对 数 . 


表 9.4 ”两 种 类 型 癌症 晚期 患者 的 生存 时 间 (天 数 ) 


45 46 51 103 
146 340 396 412 876 1112 


FRE 24 40 719 727 791 1166 1235 


3 460 3 808 


(a) 利用 Bootstrap t 和 BC。 方法 构造 每 组 患者 生存 时 间 均 值 的 95% 置信 区 间 . 

(b) 利用 置换 检验 方法 检验 两 组 患者 的 生存 时 间 均 值 没有 差别 的 假设 . 

(c) 对 于 已 经 计算 得 到 (a) 中 的 一 个 可 靠 置 信 区 间 , 我 们 再 来 研究 其 中 一 些 可 能 失误 的 
地 方 . 对 乳腺 癌 生 存 时 间 均 值 构造 一 个 95% 的 置信 区 间 , 可 以 采用 一 般 的 Bootstrap 
方法 , 数据 取 对 数 并 且 将 得 到 的 区 间 边 界 的 结果 再 作 指 数 变换 . 对 于 原始 数据 应 用 
一 般 的 Bootstrap 方法 对 乳腺 瘤 生存 时 间 均 值 构 造 另 一 个 95% 的 置信 区 间 ， 将 这 
两 个 置信 区 间 与 (a) 中 的 置信 区 间作 比较 . 

用 估计 一 个 标准 Cauchy 分 布 均值 的 问题 说 明 Bootstrap 方法 不 能 用 于 厚 尾 分 布 . 用 估 

tt Unif(0,0) 分 布 的 参数 9 的 问题 说 明 Bootstrap 方法 不 能 用 于 极 值 . 

自己 设计 一 个 问题 进行 模拟 试验 ， 比 较 分 位 数 方法 、BC。 方法 以 及 Bootstrap t 方法 的 

BERRA 95% 的 Bootstrap 置信 区 间 的 长 度 . 讨论 所 得 结果 . 
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本 章 考 虑 用 来 自 于 密度 函数 f 的 独立 随机 变量 XX1,… ,天 ,的 一 组 观测 对 f 
进行 估计 . 本 章 首 先 关注 单 变量 密度 估计 . 10.4 节 将 介绍 一 些 多 变量 密度 函数 估计 
的 方法 . 

在 探索 性 数据 分 析 中 , 密度 函数 估计 常用 来 估计 多 峰 性 、 偏 度 、 尾 部 行为 等 . 
在 推断 中 , 密度 估计 对 作 决 策 、 分 类 和 汇总 Bayes 后 验 也 很 有 帮助 . 密度 估计 也 是 
一 个 很 好 的 表示 工具 , 这 是 因为 它 对 分 布 提供 了 一 个 简洁 美观 的 汇总 . 最 后 , 密度 
估计 也 可 作为 其 他 计算 方法 的 工具 , 包括 一 些 模拟 算法 和 MCMC 方法 . 关于 密度 
估计 的 综合 性 专著 包括 [492,507,553]. 

密度 估计 问题 的 参数 解 首先 假 设 一 个 参数 模型 ,XX1,… Xn ~ iid. fxle, 其 
中 9 是 低 维 参数 向 量 . 参数 估计 6 可 通过 一 些 估计 方法 得 到 , 如 极 大 似 然 、Bayes 
或 矩 方法 估计 . 在 = 点 处 导出 的 密度 估计 是 fxie(z|6). 该 方法 的 危险 性 在 于 起 点 : 
依赖 于 一 个 不 正确 的 模型 fxle 可 能 导致 严重 的 推断 错误 , 不 管 由 模型 生成 6 时 使 
用 的 估计 方法 如 何 . 

本 章 主要 讨论 密度 估计 的 非 参 方法 , 其 对 f 形式 的 假设 很 少 . 这 些 方法 主要 用 
局 部 信息 在 x 点 处 来 估计 f. 关于 为 什么 称 估计 量 是 非 参 的 , 在 [492,532] 中 有 更 
加 准确 的 观点 . 

一 类 常见 的 非 参 密度 估计 是 直方 图 , 它 是 一 种 分 段 常数 的 密度 估计 . 多 数 软件 
包 都 可 自动 生成 ， 人们 例 行 地 使 用 直方 图 , 以 致 很 少 考虑 其 背后 的 复杂 性 . 位 置 、 
宽度 及 柱子 个 数 的 最 优选 择 都 要 基于 复杂 的 理论 分 析 . 

另 一 类 基本 的 密度 估计 可 通过 考虑 密度 函数 如 何 将 概率 分 配 到 各 区 间 上 而 受 
到 启发 . 现 观测 到 一 数据 点 Xi = zi, WR f 足够 光滑 , 我 们 假设 f 将 某 概率 不 但 
赋予 z; 点 , 而 且 赋 予 z; 周围 的 一 个 区 域 . 因此 , 要 从 Xi, ,Xn ~ ii.d.f 估计 f, 
将 X; 周围 区 域 的 概率 密度 累加 起 来 是 合理 的 . 

具体 来 说 , 要 估计 z 点 的 密度 , 假设 我 们 考虑 以 z 为 中 心 , 宽度 为 dz = 2h 的 
区 域 , 其 中 h 是 某 固定 值 . 那么 落 入 区 间 y= [z h,e +h] 的 观测 的 比例 显示 了 s 


处 的 密度 . 更 精确 地 , 我 们 取 f(z = 2 X He- xi<n, E 


f(z) = 元 Shien I<h}s (10.1) 
其 中 当 4 为 真 时 aj, 否则 为 0. 
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令 Ny(h,n) = È 1{lz-xil<h} 表示 落 入 区 间 y 的 样本 点 的 个 数 . 那么 N, 就 是 


Bin(n, p(7)) 随机 变量 , 其 中 p(y) = 人 f(t)dt. 因此 E{Ny/n} = p(y), Var{ Ny/n} = 


PL — p(y))/n. EE (10.1) 式 是 一 个 合理 的 估计 量 ， 显然 nh 要 随 N 的 增加 而 
增加 . 但 是 更 精确 地 , 我 们 可 以 分 别 考虑 n 和 hh 的 要 求 . 用 落 入 区 间 的 点 的 比 
例 来 估计 7 分 给 y 的 概率 . 为 近似 z 的 密度 , 我 们 必须 令 h 一 0 来 收缩 y. 于 是 


lim E{f(z)} = jim 52 = f(z). 同时 由 于 n 一 co 时 var{f(z)} 一 0, 所 以 我 们 需 
要 增加 总 样本 数 . 因此 (10.1) 式 中 估计 量 逐 点 相 容 的 基本 要 求 是 当 n 一 co 时 
nh 一 00,h 一 0. 以 后 我 们 会 看 到 , 这 些 要 求 在 更 一 般 的 意义 下 也 是 成 立 的 . 


10.1 绩效 度 


为 更 好 地 理解 密度 估计 量 的 好 坏 , 我 们 必须 首先 考虑 如 何 评价 密度 估计 量 的 性 
质 . 令 有 表示 给 定常 数 h 时 7 的 估计 量 , 该 用 来 控制 构造 时 概率 密度 贡献 的 
局 部 程度 . 小 的 h 表示 f(z) 应 该 更 多 地 依赖 > 附近 观测 的 数据 点 , 而 大 的 h 表示 
远 的 数据 和 z 附近 的 观测 有 几乎 相等 的 权重 . 

下 作为 整个 支撑 区 域 上 f 的 估计 量 , 要 评价 其 好 坏 , 应 用 积分 平方 误差 


ISE(h) = A (f(z) = f(2)) az. (10.2) 


注意 , ISE(h) 通过 f(z) 是 观测 数据 的 函数 . 因此 它 在 观测 样本 的 条 件 下 总 结 了 f 
的 表现 . ABNER, 如 果 我 们 想 讨论 估计 量 的 一 般 性 质 , 那 
么 在 所 有 可 能 观测 的 样本 上 对 ISE(h) 进行 平均 是 比较 合理 的 . 积分 均 方 误差 是 


MISE(h) = E{ISE(h)}, (10.3) 


其 中 期 望 是 关于 分 布 f 的 . 因此 MISE(h) 可 看 成 是 误差 ( 即 ISE(h)) 关于 抽样 密 
度 的 整体 度量 的 平均 值 . 又 由 期 望 和 积分 的 可 交换 性 ， 


MISE(h) = J MSE, (f(z))dz, (10.4) 
其 中 
MSEn (f(z)) = E{(f(2) - f(2))?} = var{ f(z)} + (bias{ f(z)})? (10.5) 


A ae = BE{f(z)} — f(a). ER (10.4) 表明 MISE(h) 可 看 成 是 在 每 点 > 处 
对 局 部 均 方 误差 进行 累积 . 
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对 多 元 密度 估计 , ISE(h) A MISE(h) 可 类 似 定义 . 具体 来 说 , ISE(h) = f (f(z)— 
f(z) dz, MISE(h) = E{ISE(h)}. 

MISE(h) 和 ISE(h) 都 是 度量 估计 f 质量 的 , 而 且 每 个 都 可 用 来 研究 选择 hh 值 
的 准则 . 关于 这 两 个 方法 的 好 坏 一 直 是 争论 的 一 个 焦点 [249,260,313]. 损失 和 风险 
这 两 个 统计 概念 之 间 的 区 别 是 关键 的 . 使 用 ISE(h) 从 概念 上 来 说 是 很 好 的 , 因为 
它 用 观测 数据 来 评价 估计 量 的 表现 . 然而 , MISE(h) 是 一 种 基于 ISE 评价 的 近似 同 
时 又 是 反应 在 许多 数据 集 平均 意义 上 寻找 最 优 表现 这 一 目标 的 有 效 方式 ， 在 下 面 
的 章节 中 , 这 两 种 方法 都 会 遇 到 . 

虽然 为 了 简单 和 出 于 习惯 , 我 们 只 关注 基于 平方 误差 的 表现 准则 , 但 是 平方 误 
差 并 不 是 唯一 的 合理 选择 比如 , 用 L 范 数 | fl) - f(z)ldz 及 其 相应 的 期 户 共 


换 积分 平方 误差 和 MISE(h) 也 是 有 很 多 合理 理由 的 . 特别 地 , Di; 范 数 在 单调 连续 
的 尺度 变换 下 是 不 变 的 . L 这 种 与 尺度 无 关 的 性 质 使 它 成 为 f 和 f 靠近 程度 的 一 
种 整体 度量 . Devroye 和 Gyérfi 研究 了 用 Li 进行 密度 估计 的 理论 , 并 提出 该 方法 
的 其 他 优点 [138,139]. 原则 上 , 估计 量 的 最 优 性 依赖 于 评价 表现 所 采用 的 尺度 . 
此 采用 不 同 的 尺度 支持 不 同类 型 的 估计 量 . 然而 实际 上 , 除 尺度 外 很 多 其 他 因素 一 
般 也 会 影响 密度 估计 的 质量 . 
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方程 (10.1) 中 给 出 的 密度 估计 把 z 附近 h 范围 内 的 所 有 点 施 以 同样 的 权重 . 
一 元 核 密度 估计 允许 更 加 灵活 的 加 权 方 案 , 即 拟 合 


f= Fok (52), (10.6) 


其 中 K RRB, h 为 固定 值 , 通常 称 为 窗 宽 . 

根据 X; 和 z 的 接近 程度 , 核 函 数 把 每 个 X; 对 核 密度 估计 f(z) 的 贡献 给 出 权 
重 . 通常 , 核 函数 处 处 为 正 且 关于 零点 对 称 . K 通常 表示 密度 , 如 正 态 或 学 生 t 密 
BE. 其 他 一 般 的 选择 包括 三 权重 (triweight) 核 和 艾 氏 (Epanechnikov) 核 ( 见 10.2.2 
节 ), 它们 和 我 们 熟悉 的 密度 并 不 一 致 . 注意 , 一 元 均匀 核 , 即 K(z) = 31 gjj<1), 产 
AE (10.1) 中 给 出 的 估计 量 . 限制 K 满足 | z2K(z)dz= 1 可 使 刀具 有 密度 K 的 尺 
度 参数 的 作用 , 但 这 不 是 必须 的 . 

图 10.1 阐明 了 如 何 从 四 个 一 元 观测 , z1,… ,za 的 样本 构造 核 密度 估计 . 以 每 
个 观测 数据 点 为 中 心 是 一 个 尺度 核 , 本 例 中 即 为 正 态 密度 函数 除 以 4. 这 些 贡献 用 
虚线 来 表示 . 各 贡献 相 加 就 得 到 实 线 表 示 的 估计 f. 
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密度 


“F T, T. T, 
图 10.1 ” 正 态 核 密度 估计 ( 实 线 ) 及 样本 z1,… ,z4 的 核 贡 献 (R). 
任意 z 的 核 密度 估计 是 以 每 个 zi 为 中 心 的 核 贡献 之 和 


精确 地 讲 , (10.6) 的 估计 量 称 为 国定 窗 宽 核 密度 估计 , 因为 h 是 常数 . 窗 宽 值 
的 选择 对 估计 量 六 有 很 大 影响 . 如 果 hh 太 小 , 那么 密度 估计 偏向 于 把 概率 密度 分 配 
得 太 局 限于 观测 数据 附近 , 致使 估计 密度 函数 有 很 多 错误 的 峰值 . 如 果 a KK, 那 
么 密度 估计 就 把 概率 密度 贡献 散 得 太 开 .在 很 大 的 邻 域 里 求 平均 会 因 光滑 而 和 遗失 
掉 f 的 一 些 重 要 特征 . 

注意 , 根据 大 小 为 ”的 一 组 样本 在 每 个 观测 样本 点 都 计算 核 密度 估计 需要 对 
K 进行 n(n - 1) 次 计算 . 因此 , f 的 计算 量 随 n 的 增加 而 迅速 增加 . 然而 对 多 数 实 
际 问题 , 如 对 密度 作 图 , 就 不 必 在 每 个 点 Xi 上 计算 估计 . 实际 的 方法 是 在 = 值 的 格 
子 点 上 计算 f(x), 然后 在 格子 点 间 线 性 内 插 . 几 百 个 值 的 格子 点 通常 足够 使 的 
图 形 看 上 去 比较 光滑 了 .计算 核 密度 估计 一 个 更 快 更 近似 的 方法 是 把 数据 先 合并 
成 几 组 , 然后 把 每 个 值 四 舍 五 入 到 最 近 组 的 中 心 [274]. 这 样 , 核 只 需要 在 每 个 非 空 
组 的 中 心计 算 就 行 了 , 其 中 密度 贡献 用 每 组 的 计数 来 加 权 . 这 样 当 n 非常 大 以 致 难 
以 计算 每 个 以 X; 为 中 心 对 有 的 单独 贡献 时 , 可 大 大 减少 计算 时 间 . 


10.2.1 ”窗帘 的 选择 


窗 宽 参数 控制 密度 估计 的 光滑 度 . 由 (10.4) 和 (10.5) 我 们 看 到 , MISE(h) 等 于 
积分 均 方 误差 .这 表明 窗 宽 的 选择 是 f 的 偏差 和 方差 之 间 的 一 个 折衷. 这 种 折衷 
几乎 是 所 有 模型 选择 中 普遍 存在 的 问题 , 包括 回归 、 密度 估 计 和 光滑 技术 ( 见 第 11, 
12 章 ). 小 窗 宽 得 到 的 密度 估计 会 有 很 多 摆动 , 这 表明 由 于 不 够 光滑 而 产生 了 高 度 
变异 . KARO f 很 多 重要 的 特征 , 因此 会 有 偏差 . 

例 10.1 ( 双 峰 密度 ) ” 窗 宽 的 效果 见 图 10.2. 该 直方 图 画 的 是 来 自 于 N(4,1?) 和 
N(9, 2?) 两 密度 等 权重 混合 的 100 个 点 的 样本 .采用 标准 正 态 核 的 三 个 密度 估计 
同时 也 附 在 图 中 , 其 中 h = 1.875( 虚 线 ), h = 0.625( 粗 线 ), h = 0.3( 实 线 ). 窗帘 
h = 1.875 显然 太 大 , 因为 它 产生 一 个 过 度 光滑 的 密度 估计 , 不 能 显示 出 f 的 双 峰 
来 . 另 一 方面 , h = 0.3 的 窗 宽 又 太 小 , 故 其 不 够 光滑 . 密度 估计 波动 太 厉害 , 出 现 很 
多 错误 的 峰值 . 窗 宽 h = 0.625 是 恰当 的 , 正确 地 表示 了 f 的 主要 特征 又 捉 制 了 抽 
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样 变异 性 的 众多 影响 o 


图 10.2 KAA 10.1 中 双 峰 分 布 的 100 个 数据 点 的 直方 图 及 三 个 正 态 核 密度 估计 . 估 
计 分 别 对 应 于 窗 宽 h = 1.875( 虚 线 ), h = 0.625( 粗 线 ) 和 h = 0.3( 实 线 ) 

接 下 来 的 几 节 将 讨论 选择 h 的 几 种 方法 . 当 密 度 估计 主要 用 作 探 索性 数据 分 
析 时 , 基于 目测 的 跨度 选择 也 是 可 以 的 , 而 且 导致 最 终 选择 的 这 一 试 错过 程 本 身 也 
可 能 对 密度 估计 中 观测 到 的 特征 的 稳定 性 有 更 深入 的 了 解 . 实际 上 , 我 们 只 需 对 h 
GR FB EL, 然后 选 一 个 能 足以 超过 某 阔 值 的 值 , 其 中 比 阔 值 更 小 的 窗 宽 使 得 密度 估 
计 的 特征 变 得 不 稳定 或 者 密度 估计 呈现 明显 的 局 部 摆动 以 致 未 必 表 示 f 的 峰值 . 虽 
然 密度 估计 对 窗 宽 的 选择 是 敏感 的 , 但 需要 强调 的 是 在 任何 应 用 中 都 有 不 止 一 种 正 
确 选 择 . 实际 上 , 相互 在 10% ~ 20% 范围 内 的 窗 宽 从 定性 上 常常 会 得 出 相似 的 结果 . 

希望 有 一 个 相对 更 正规 的 窗 宽 选 择 程序 的 情况 也 时 有 发 生 : 如 对 自动 算法 , 对 
数据 分 析 初 学 者 或 在 很 大 程度 上 对 客观 性 或 形式 有 要 求 时 . 文献 [316] 在 方法 上 给 
出 了 全 面 的 综述 ; 其 他 比较 好 的 综述 包括 [27,77,315,426,492,502,507]. 

要 理解 窗 宽 的 选择 , 进一步 分 析 MISE(h) 是 有 必要 的 . 假设 K 是 对 称 连续 的 
概率 密度 函数 , 均值 为 零 , 方差 0 < 0% < co. > Rig) 表示 给 定 函数 9 的 粗粮 度 的 
度量 , 定义 为 

Rig) = /dz (10.7) 


然后 假设 R(K) < co E f 足够 光滑 . 本 节 中 , 这 就 意味 着 f 有 二 阶 有 界 连续 导数 
E RO”) < 00; 对 以 后 讨论 的 某 些 方法 还 要 求 有 高 阶 光滑 导数 . 注意 


MISE(h) = J MSE» (F(z))dz = J var fle)} + (bias{ Flo)}) ae. (10.8) 


人 允许 当 n 一 co 时 nh 一 00,h 一 0, 我 们 将 进一步 分 析 该 表达 式 . 
要 计算 (10.8) 中 的 偏差 项 , 注意 到 应 用 变量 变换 有 


Eji |r (2*) sede 
= J K(t)f (a — ht)dt. (10.9) 
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然后 在 (10.9) 中 用 Taylor 级 数 展开 


f(x — ht) = f(x) — htf (x) + kt? f” (2)/2 + o(h?), (10.10) 
替换 并 注意 到 天 关于 零点 对 称 可 得 
E{f(2)} = f(a) + Wok f“ (2)/2 + o(h?), (10.11) 


其 中 o(h?) 是 当 h 一 0 时 趋向 于 零 比 h? 速度 更 快 的 一 个 量 . 因此 


各 2 n 
(biast f(2)})° = nok if" (22/4 + olh’), (10.12) 
且 该 表达 式 对 z 积分 可 得 
| (bias{ f(z)}) dz = ao 和 R(f")/4 + o(h). (10.13) 


计算 (10.8) 中 的 方差 项 可 采用 类 似 的 方法 : 
var{f(z)} = Lvar fix (z >) } 


=a [Kte hiat- 5 [efix (E H 


= [KOVO +0- Liste) +o 


=< Sle)R(K) +0 (=) f (10.14) 
将 其 对 z 积分 得 ee 
J {foyer = RE +0 (=) : (10.15) 
因此 
MISE(h) = AMISE(h) +0 (去 + ri) : (10.16) 
其 中 TER 
AMISE(h) = a + ERR) (10.17) 


称 作 渐 进 均 方 积分 误差 .如果 当 n 一 co 时 nh 一 c,h — 0, 则 MISE(h) 一 0, 
这 就 证 实 了 在 本 章 介绍 中 讨论 均匀 核 估计 时 的 直观 印象 . 可 以 证 明 , (10.16) 中 的 误 
差 项 等 于 O(n-! + 有 5), 关于 平方 偏差 更 详尽 的 分 析 见 [491], 但 我 们 最 感 兴趣 的 是 
AMISE. 
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要 关于 h 最 小 化 AMISE(h), 我 们 必须 把 h 设 在 某 个 中 间 值 , 这 可 避免 ft 
大 的 偏差 以 及 过 大 的 变异 性 .关于 h 最 小 化 AMISE(A) 表明 最 好 是 精确 地 平衡 
(10.17) 中 偏差 项 和 方差 项 的 阶 数 . 最 优 的 窗 宽 是 


_[(_RK)_\” 
n= (ERT) i (10:18) 


但 该 结果 用 处 并 不 很 大 , 因为 它 依赖 于 未 知 密度 f 

注意 最 优 窗 宽 有 h = O(n-!/5), 这 种 情况 下 MISE = O(n-4/5). 该 结果 显示 了 
随 着 样本 量 的 增加 窗 宽 缩 小 的 速度 , 但 对 给 定 的 数据 集 来 说 它 并 未 指明 窗 宽 具体 取 
多 少 对 密度 估计 是 合适 的 . 下 面 的 章节 提出 了 多 种 自动 窗 宽 选 择 策略 . 在 实际 应 用 
中 , 它们 的 表现 随 f 的 性 质 以 及 观测 数据 的 不 同 也 有 所 不 同 . 目前 还 没有 一 个 绝对 
最 好 的 方法 . 

很 多 窗 宽 选 择 方法 依赖 于 优化 或 找到 关于 h 的 函数 的 根 一 -例如 ， 最 小 化 
AMISE(h) 的 一 个 近似 量 .， 这 种 情况 下 ,可 能 会 在 50 或 更 多 个 值 的 格子 点 上 搜 
R, 格子 点 之 间 进 行 线性 插值 . 如 果 存 在 多 个 根 或 多 个 局 部 极 小 值 , 那么 格子 点 搜 
索 比 自动 优化 或 寻根 算法 更 有 助 于 理解 窗 宽 选 择 问 题 . 

1， 交 叉 验 证 


许多 窗 宽 选 择 策略 的 出 发 点 是 把 了 作为 S 估计 量 时 的 某 个 质量 度量 和 h RE 
联系 . 该 质量 用 某 个 Qh) 量化 , 优化 其 估计 Q(h) UFR h. 

如 果 Q) 在 某 种 意义 上 根据 对 观测 数据 的 拟 合 程度 来 评价 的 质量 , 那么 观 
测 数据 就 使 用 了 两 次 : 一 次 是 通过 数据 计算 f, 另 一 次 是 求 作为 S 估计 量 的 质 
量 . 这 种 两 次 使 用 数据 对 估计 量 的 质量 提供 了 一 个 过 于 乐观 的 观点 . 当选 择 的 估计 
量 以 这 种 方式 误导 时 , 该 估计 量 倾向 于 带 有 太 多 的 摆动 或 虚假 峰值 而 出 现 过 度 拟 合 
( 即 光滑 不 足 ). 

交叉 验证 可 对 该 问题 作出 纠正 . 计算 在 第 i 个 数据 点 的 质量 时 , 模型 用 除 第 
i 个 点 之 外 的 所 有 数据 拟 合 . 令 


A 1 Xi- X. 
f-i(Xi) = m5 2*( h +) (10.19) 


表示 在 X; 点 处 核 密度 估计 量 用 除 Xi 外 所 有 数据 估计 的 密度 . 选 Q 作为 fali) 
的 函数 , 以 便 把 拟 合 了 来 选择 h 和 评价 来 选择 区 分 开 来 . 

虽然 交叉 验证 在 散 点 光滑 的 跨度 选择 策略 中 非常 成 功 ( 见 第 11 章 ), 但 对 密度 
估计 的 窗 宽 选择 并 不 总 是 有 效 的 . 通过 交叉 验证 方法 估计 的 可 能 对 抽样 变异 性 
非常 敏感 . 尽管 在 实际 和 某 些 软件 中 一 直 使 用 这 些 方法 , 但 复杂 的 插入 法 是 一 个 更 
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可 靠 的 方法 , 如 Sheather-Jones 方法 (10.2.1 WH 2 Wd). 尽管 如 此 , 交叉 验证 方 
法 介绍 的 思想 在 很 多 情况 下 都 是 有 用 的 . 
交叉 验证 中 一 种 简单 的 选择 是 令 Q(h) 为 [148,252] 中 提出 的 伪 似 然 


=J] fax). (10.20) 


通过 最 大 化 该 伪 似 然 来 选择 窗 宽 . 尽管 该 方法 简单 直观 , 但 其 得 到 的 密度 估计 常常 
有 太 多 摆动 且 对 异常 值 过 于 敏感 [493]. 通过 最 小 化 PL(h) 获得 跨度 的 核 密 度 估计 ， 
其 理论 极限 表现 也 不 好 . 很 多 时 候 估计 量 不 是 相合 的 [489]. 

另 一 种 方法 是 把 积分 平方 误差 重新 写成 


ISE(h) = J 户 (z)dz — 2E{f(x)} + J J(z)2dz 

=R(f) ~ 2E{f(z)} + R(f). (10.21) 
该 表达 式 的 最 后 一 项 是 常数 且 中 间 项 可 以 用 2 È JX) 来 估计 . 因此 , 通过 关于 
h SMe 7 

UCV(h) = RC) - 2 LA (10.22) 
应 该 得 到 较 好 的 窗 宽 [50,472]. UCV(h) 称 作 无 偏 交叉 验证 准则 , 因为 E{UCV(h) + 
R(f)} = MISE(h). 该 方法 也 称 作 好 小 二 来 交叉 验证 , 因为 最 小 化 UCV(h) HAY h 
实际 上 最 小 化 了 有 和 f 之 间 的 积分 平方 误差 . 


如 果 不 可 能 解析 计算 R), 那么 计算 (10.22) 最 好 的 方式 可 能 是 另外 找 一 个 核 
来 简化 解析 , 对 正 态 核 o, 根据 问题 10.3 描述 的 步骤 可 以 证 明 


vovo = e + amo LS eee oa as A) 


i=1 jži 
(10.23) 


该 表达 式 不 用 数值 近似 就 可 有 效 地 计算 出 来 . 

虽然 关于 h 最 小 化 UCV(h) 得 到 的 窗 宽 渐进 地 与 最 好 的 可 能 窗 宽 一 样 好 [256， 
519], 但 它 收敛 到 最 优 值 的 速度 非常 慢 [259,494]. 在 实际 问题 中 , 使 用 无 偏 交叉 验证 
是 有 风险 的 , 因为 导出 的 窗 宽 倾向 于 对 观测 数据 有 很 强 的 依赖 性 . 换 句 话 说, 当 对 
来 自 于 同一 分 布 的 不 同 数 据 集 应 用 无 偏 交叉 验证 时 , 可 能 得 到 非常 不 同 的 答案 . 在 
实际 应 用 中 , 其 表现 是 不 稳定 的 且 经 常 发 生 光 滑 不 足 的 情况 . 

与 MISE(h) 不 一 样 , 目标 表现 准则 Q(h) = ISE(h) 本 身 是 随机 的 , 这 是 导致 无 
偏 交叉 验证 高 抽样 变异 性 的 主要 原因 . Scott 和 Terrell 提出 一 个 有 偏 交叉 验证 准则 
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(BCV(h)), 其 最 小 化 AMISE(h) 的 一 个 估计 [494]. 实际 上 , 该 方法 一 般 不 如 最 优 插 
入 法 , 而 且 可 能 得 到 过 大 的 窗 宽 和 过 度 光 滑 的 密度 估计 . 

例 10.2 ( 鲸 的 泗 游 ) 2001 年 春天 在 阿拉 斯 加 巴 罗 角 附 近 的 海 冰 边 缘 对 己 头 鲸 幼 
仔 做 了 一 个 目测 调查 , 图 10.3 显示 了 121 头 弓 头 鲸 幼 仔 被 观测 的 次 数 . 该 调查 是 
一 次 国际 合作 项 目 , 目的 是 为 拯救 该 濒临 灭绝 的 鲸鱼 种 群 , 而 又 允许 沿岸 因 纽 皮特 
居民 维持 生计 开展 小 范围 的 猫 杀 [135,219,446]. 


0.015; 


£ 0.010 
= 0.005; 
tere * 


1000 1200 1400 
自从 4 月 5 日 午夜 后 的 小 时 数 
图 10.3 Bl 10.2 中 讨论 的 2001 年 春季 泗 游 期 间 121 头马 头 鲸 幼 仔 被 观测 的 次 数 . 每 个 
观测 数据 用 4 月 5 日 午夜 从 看 到 第 一 个 成 年 鲸 开 始 的 小 时 数 来 表示 


向 东北 方向 春季 润 游 的 时 间 选 择 带 有 惊人 的 规律 性 , 弄 清润 游 模式 的 特征 对 将 
来 制定 这 些 动物 的 科学 研究 计划 是 很 重要 的 . 有 一 个 猜想 就 是 , 油 游 可 能 会 按照 某 
个 大 致 的 节奏 出 现 . 若 果 真如 此 , 则 这 对 研究 就 非常 重要 , 因为 它 可 使 我 们 对 马 头 
鲸 的 生态 及 储量 结构 有 新 的 认识 . 

图 10.4 显示 了 用 正 态 核对 这 些 数据 进行 核 密度 估计 的 结果 , 其 中 用 三 种 不 同 
的 交叉 验证 准则 选择 h. KF h 最 大 化 交叉 验证 的 PL(h) 得 到 h = 9.75, 其 密度 
估计 在 图 中 用 短 划 线 表示 . 该 密度 估计 差 得 很 远 , 在 好 几 个 区 域 似乎 都 有 虚假 的 峰 


1000 200 1400 
自从 4 月 SEFER 


图 10.4 ”用 正 态 核对 例 10.2 “PERE ERE, 其 中 窗 宽 分 别 用 3 种 不 同 的 
交叉 验证 准则 选择 . 用 PL(h) 时 窗 宽 为 9.75( 短 划 线 ), 用 UCV(h) 时 为 5.08( 虚 线 )， 
用 BCV(h) 时 为 26.52( 实 线 ) 
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值 . 在 应 用 中 , 通过 关于 h 最 小 化 UCV(h) 得 到 h = 5.08. 其 结果 甚至 更 糟 , 相应 
的 密度 估计 见 图 中 的 虚 曲 线 . 该 窗 宽 显 然 太 小 .最 后 关于 h 最 小 化 BCV(h) 得 到 
h = 26.52, 其 密度 估计 见 图 中 的 实 线 . 显然 , 三 个 选择 中 最 好 的 密度 估计 只 强调 了 
数据 分 布 中 最 显著 的 特征 , 但 看 上 去 好 像 过 度 光 滑 了 . 也 许 在 10 和 26 之 间 的 某 个 
窗 宽 会 更 好 . 口 
2， 揪 入 法 


插入 法 应 用 导 频 窗 宽 来 估计 / 的 一 个 或 多 个 重要 特征 . 然后 估计 f 本 身 的 窗 
宽 在 另 一 阶段 用 依赖 于 估计 特征 的 准则 去 估计 . 最 优 插入 法 已 经 证 实在 不 同 应 用 中 
都 非常 有 效 , 而 且 比 交叉 验证 方法 更 为 流行 ， 然 而 , Loader 提出 观点 , 反对 对 交叉 
验证 方法 不 加 鉴别 的 否定 [361]. 
对 一 维 核 密度 估计 我 们 知道 , 最 小 化 AMISE 得 到 的 窗 宽 为 
7 R(K) 1/5 
h= (eae) ; (10.24) 
其 中 o 是 把 K 看 成 某 密度 时 K 的 方差 . 乍 一 看 ， (10.24) 式 好 像 并 无 大 用 , 因 
为 最 优 窗 宽 通过 其 二 阶 导数 的 粗糙 度 依赖 于 未 知 密度 /， 现 已 提出 多 种 方法 估计 
Rs"). 
Silverman 提出 一 种 初等 的 方法 : 把 f FDTD A TEA BE 
换 [507]. 这 就 等 于 用 R(d )/65 估计 RE”), 其 中 4 为 标准 正 态 密度 函数 , 因此 由 
Silverman 的 大 拇指 法 则 得 到 
1/5 
he (=) a (10.25) 


如 果 f 是 多 峰 的 , 那么 RS”) 对 6 的 比值 可 能 要 比 正 态 分 布 数据 时 大 . 这 就 导致 了 
过 度 光滑 . 比较 好 的 窗 宽 可 通过 考虑 四 分 位 区 间距 (IQR) 得 到 , IQR 是 一 个 比 5 更 
加 稳健 的 散 度 度量 . 因此 , Silverman 建议 在 (10.25) 中 用 õ=minfô, IQR/(#- (0.75) 
一 加 -1(0.25))} ~ min{é,1QR/1.35} 替换 ô, 其 中 p 是 标准 正 态 累积 分 布 函数 . 虽然 
该 方法 简单 , 但 不 建议 通用 , 因为 它 往往 过 度 光 滑 . 然而 作为 产生 近似 窗 宽 的 一 种 
方法 , Silverman 的 大 拇指 法 则 还 是 很 有 价值 的 , 这 种 窗 宽 对 复杂 的 插入 方法 中 使 
用 的 各 量 的 导 频 估计 是 有 效 的 . 

(10.24) 中 R(f") 的 经 验 估计 是 比 Silverman 的 大 拇指 法 则 更 好 的 选择 . 基于 


核 的 估计 量 为 
1 z- Xi 
Fas alaka ho :)} 


-HÈ (这 27%), (10.26) 
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其 中 ho WHE, L 为 用 来 估计 f” 的 充分 可 微 的 核 函 数 ，R(f") 的 估计 直接 从 
(10.26) 可 得 . 

估计 f 的 最 优 窗 宽 和 估计 f RRE) 的 最 优 窗 宽 是 不 同 的 . 认识 到 这 一 点 
很 重要 , 因为 估计 f” 时 var{f”} 对 均 方 误差 贡献 的 比例 比 估计 f 时 var{f} 对 均 
方 误差 贡献 的 比例 大 得 多 .从 而 估计 f” 要 求 较 大 的 窗 宽 . 因此 我 们 预计 ho > h, 
这 与 一 个 函数 的 导数 比 函 数 本 身 更 光滑 这 一 趋势 是 一 致 的 . 

假设 我 们 用 窗 宽 为 ho 的 核 工 来 估计 RUS"), 用 窗 宽 为 h 的 核 KK 来 估计 f. 那 
么 当 ho xn T 时 用 核 L 估计 RUF’) 的 渐进 均 方 误差 最 小 . 要 确定 ho A h Z 
具体 关系 如 何 , 注意 估计 f 的 最 优 窗 宽 有 hon 5. 对 n 解 这 个 表达 式 并 在 方程 
ho x n-1/7 中 替换 n, 可 证 明 

ho = C1(R(F”), R(F”))Ca(L)h*!", (10.27) 
其 中 Cl 和 Cs 分 别 为 依赖 于 f 导数 的 函数 和 依赖 于 核 L 的 函数 . 等 式 (10.27) 仍 
旧 依 赖 于 未 知 的 S, 但 如 果 用 相对 简单 的 估计 设 定 ho 来 找 Cl 和 Co 的 话 , 用 ho 和 
L 产生 的 RCE") 估计 的 质量 也 不 会 太 坏 . 实际 上 , 我 们 可 用 Silverman 的 大 拇指 法 
则 选择 的 窗 宽 来 估计 Cl 和 Co. 

对 找 窗 宽 结 果 是 一 个 两 阶段 的 过 程 , 称 为 Sheather-Jones 方法 [315,503]. 在 第 一 
阶段 , 用 简单 的 大 拇指 法 则 计算 窗 宽 ho. 该 窗 宽 用 来 估计 RI), 这 是 最 优 窗 宽 表 
R (10.24) 中 唯一 未 知 的 . 然后 通过 (10.24) 计算 窗 宽 h 并 产生 最 后 的 核 密 度 估 
计 . 


对 用 导 频 核 L = o 的 一 元 和 密度 估计 , Sheather-Jones 窗 宽 是 解 如 下 方程 得 到 


的 h 值 a 
( i) -h=0, (10.28) 


nok Rain) 


其 中 


” 1 a. Xi 
Ren) (Ff ) aaa 2 (=) 


5p ” 1/7 
â(h) = (ie Ralf 2) ， 
Rf”) 


ro 1 n e Xi- X. 
R= Do ( z +), 


i=l j=1 


apam 1 rē Xi- X, 
Rf = Ld? ( b +), 


451 j=1 
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a = 0.920(IQR)/n/”, 
b = 0.912(IQR)/nl/9， 


p 为 正 态 密度 函数 的 i 阶 导数 , IQR 为 数据 的 四 分 位 区 间距 . (10.28) 式 的 解 可 通 
过 格子 点 搜索 或 第 2 章 中 的 寻根 策略 , 如 Newton 方法 得 到 . 

Sheather-Jones 方法 一 般 表现 非常 好 [315,316,427,502]. 还 有 很 多 其 他 的 方法 ， 
它们 是 基于 对 MISE(h) 或 其 极 小 值 进 行 精心 选择 的 近似 值 [77,261,262,314,426]. 每 
种 情况 下 , 仔细 选择 各 个 量 的 导 频 估计 对 保证 最 终 窗 宽 的 良好 表现 起 了 至 关 重要 的 
作用 . 有 些 方法 给 出 的 窗 宽 渐进 收敛 到 最 优 窗 宽 的 速度 甚至 比 Sheather-Jones 方 
法 还 要 快 很 多 , 这 些 方法 在 某 种 情况 下 都 可 能 是 有 用 的 选择 . 然而 , 这 些 方法 在 实 
际 中 没有 一 个 能 比 Sheather-Jones 方法 更 容易 操作 或 表现 更 好 . 

例 10.3 (鲸鱼 泗 游 , 续 ) ”图 10.5 解释 了 对 例 10.2 中 介绍 的 弓 头 鲸 油 游 数据 如 何 
使 用 Silverman 的 大 拇指 法 则 和 Sheather-Jones 方法 . Sheather-Jones 方法 给 出 的 
窗 宽 是 10.22, 相应 密度 估计 见 图 中 实 线 . 该 窗 宽 看 上 去 有 点 儿 太 罕 , 且 得 到 的 密度 
估计 摆动 太 多 . Silverman 的 大 拇指 法 则 给 出 32.96 的 窗 宽 , 比 以 前 任何 方法 给 的 窗 
宽 都 大 . 导出 的 密度 估计 可 能 太 光 滑 了 , 并 隐藏 了 分 布 的 很 多 重要 特征 . 口 


0.015: 


æ% 0.010 
z 


R 
% 0.005 


1000 1200 1400 
自从 4 月 5 日 午夜 后 的 小 时 数 
图 10.5 ”对 鲸鱼 幼 仔 润 游 数据 用 正 态 核 及 三 种 不 同 准则 选择 的 窗 宽 得 到 的 核 密度 
估计 . 用 Sheather-Jones 方法 得 到 的 窗 宽 为 10.22 ( 实 线 ), 用 Silverman 
的 大 拇指 法 则 得 到 的 窗 宽 为 32.96 ( 短 划 线 ), 用 Terrell 的 极 大 光滑 跨度 


得 到 的 窗 宽 为 35.60( 虚 线 ) 
3. HARREN 
再 次 回忆 , 当 
_(_RK) 
n= (eR) si 


时 AMISE 达到 最 小 , 但 f 是 未 知 的 . Silverman 的 大 拇指 法 则 用 Rio") BHR R”). 
Sheather-Jones 方法 估计 R(f"). Terrell 的 极 大 光滑 方法 用 最 保守 的 ( 即 最 小 的 ) 可 
能 值 蔡 换 R(f”)[531]. 


240 第 10 章 非 参 密度 估计 


具体 来 说 , Terrell 考虑 对 所 有 f 都 最 小 化 (10.29) 的 所 有 h 的 全 体 , 并 建议 选 
择 最 大 的 这 种 窗 宽 . 换 句 话说 , (10.29) 的 右手 边 应 该 关于 f 最 大 化 . 这 使 窗 宽 选择 
不 易 出 现 光滑 不 足 的 情况 . 由 于 当 f 的 方差 趋 于 零 时 R) 也 趋 于 零 , 因此 最 大 
化 是 在 f 的 方差 和 样本 方差 52 成 比例 的 条 件 下 进行 的 . 

(10.29) 关于 f 限制 下 的 最 大 化 是 变量 微 积分 的 一 种 应 用 . 最 大 化 (10.29) 的 了 
是 一 个 多 项 式 . 用 其 粗糙 度 蔡 换 (10.29) 中 的 RF”) 可 得 


h=3 (may 6 (10.30) 


作为 选择 的 窗 宽 . 表 10.1 给 出 了 某 些 常用 核 的 RUK) AE. 


表 10.1 ”文中 讨论 的 一 些 核 选 择 及 相关 的 量 ， 核 按照 粗糙 度 RK) 由 低 到 高 排列 除了 
在 整个 实 直线 上 都 有 正 支撑 的 正 态 核 以 外 ,所 有 核 都 应 对 KK(z) RA lzi 
R.E. 是 10.2.2 第 1 部 分 中 描述 的 渐进 相对 效率 


名 称 K(2) RK) 6(K) R.E. 
正 态 核 exp{—2?/2}/V2n 1/(2V3) (1/(2Va) 1.051 
均匀 核 1/2 1/2 (9/2)/5 1.076 
艾 氏 核 (3/4)(1 一 22) 3/5 151/5 1.000 
三 角 核 1 一 |z| 2/3 241/5 1.014 
双 权重 核 (15/16)(1 — 2?)? 5/7 351/5 1.006 
IRKA (35/32)(1 — 22)? 350/429 (9 450/143)!/8 1.013 


Terrell 提出 极 大 光滑 原则 促使 了 该 窗 宽 的 选择 . 当 解释 密度 估计 时 , 分 析 者 的 
目光 自然 关注 各 众 数 , 进而 , 众 数 通常 有 重要 的 科学 含义 . 因此 选择 的 窗 宽 应 该 能 
避免 虚假 众 数 , 并 产生 只 有 在 数据 本 身 确实 存在 众 数 的 地 方 有 众 数 的 估计 . 

极 大 光滑 方法 因为 其 计算 快速 简单 而 吸引 人 . 实际 中 , 导出 的 核 密度 估计 常常 

太 光 滑 . 当 密度 估计 用 于 推断 时 我 们 将 不 愿 用 极 大 光滑 窗 宽 . 对 探索 性 数据 分 析 来 
说 , 极 大 光滑 窗 宽 可 能 相当 有 用 , 其 允许 分 析 者 关注 密度 的 主要 特征 而 不 会 被 虚假 
众 数 的 变量 暗示 所 误导 . 
例 10.4 (鲸鱼 泣 游 , 续 ) ”图 10.5 中 虚线 表示 的 是 用 35.60 的 极 大 光滑 窗 宽 得 到 的 
密度 估计 . 它 甚至 比 Silverman WAREK, 该 选择 对 鲸鱼 数据 好 像 太 大 了 ， 总 之 ， 
Silverman 的 大 拇指 法 则 和 Terrell 的 极 大 光滑 原则 都 倾向 于 产生 过 度 光 滑 的 密度 
估计 . 口 
10.2.2 RARE 


核 密度 估计 要 求 指明 两 个 部 分 : BRAK. 结果 证 明 , 核 的 形状 对 结果 的 影响 
比 窗 宽 要 小 得 多 . 表 10.1 对 各 种 核 函 数列 出 了 几 种 选择 . 
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1. RRB 

假设 K 为 各 阶 距 有 限 、 方 差 为 1 的 有 界 对 称 密度 . Epanechnikov 证 明了 关于 
K 最 小 化 AMISE 等 价 于 在 这 些 限制 条 件 下 关于 K 最 小 化 R(K)[162]. 该 变 分 学 
问题 的 解 是 密度 为 Jp K*(2/ V5) 的 核 , 其 中 K 为 艾 氏 核 


3 2 A 
K*(2)= gee ane, (10.31) 
0, 其 他 . 


这 是 以 零 为 中 心 的 对 称 二 次 函数 , 其 众 数 在 中 心 处 达到 且 在 支撑 的 边界 下 降 到 零 . 

从 (10.17) 和 (10.18) 我 们 看 到 , 对 用 正 核 K 的 核 密度 估计 , 最 小 的 AMISE 为 
Slo R(K)/n\/R(f")/5. 从 而 换 成 使 ok R(K) 加 倍 的 K 后 要 求 把 ”也 加 倍 才能 
使 AMISE 保持 同样 的 最 小 值 . 因此 , ox,R(Ko)/(ox,R(K1)) 度量 了 Ks 和 Ki 的 
渐进 相对 效率 . 表 10.1 列 出 了 多 种 核对 艾 氏 核 的 相对 效率 . 注意 到 , 相对 效率 都 很 
接近 于 1, 这 又 重新 验证 了 核 的 选择 不 怎么 重要 这 一 点 . 
2， 典 则 核 及 刻度 再 调整 

遗憾 的 是 , 一 个 特定 的 h 值 对 应 于 不 同 程度 的 光滑 , 这 依赖 于 使 用 哪个 核 . 例 
如 , h = 1 对 应 于 正 态 核 时 的 核 标准 偏差 比 对 应 于 三 权重 核 时 大 9 倍 . 

令 hx 和 hz 分 别 表示 使 用 对 称 核 密度 K 和 工时 最 小 化 AMISE(h) 的 窗 宽 ， 
其 中 K AL 均值 都 为 零 且 有 有 限 正方 差 . 那么 由 (10.29) 显然 有 


hx _ 5(K) 3 
ha 7 a)" (10.32) 


其 中 对 任何 核 都 有 6(K) = (R(K)/of) 5. 因此 要 想 达到 与 核 为 K 时 的 窗 宽 h 同 
等 的 光滑 度 , 那么 核 L 时 的 窗 宽 应 取 h6(Z)/5(K)， 表 10.1 对 一 些 常见 的 核 给 出 
5(K) 的 值 . 

进一步 假设 我 们 把 表 10.1 中 每 个 核 的 形状 重新 调整 刻度 , 使 得 h = 1 相当 
于 5(K) 的 窗 宽 ， 那 么 核 密度 估计 可 以 写成 fx(z) = È Knol — Xi), 其 中 


Krack) (2) = pate K (nates) E K 代表 表 10.1 中 某 个 原始 核 的 形状 和 尺度 . 按照 这 
种 方式 给 核 调整 刻度 可 给 出 每 种 形状 的 典 则 核 Ks(x)[373]. 这 种 观点 的 好 处 主要 在 
于 , 单独 的 h 值 可 以 对 每 个 典 则 核 交换 使 用 而 不 影响 密度 估计 的 光滑 程度 . 

注意 到 ， 对 用 窗 宽 为 h( 即 表 10.1 PARA 6(K) 的 核 ) 及 C(Kscx)) 
= (ck R(K))4/5 的 典 则 核 时 得 到 的 估计 来 说 ， 


AMISE(h) = C(Kscx)) (5 + ma) i (10.33) 
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这 就 意味 着 由 因子 (nh)! + hMR(f”)/4 决定 的 方差 和 平方 偏差 之 间 的 平衡 不 再 受 
所 选 核 的 影响 了 . 同时 , 这 也 意味 着 核对 方差 项 的 贡献 及 对 平方 偏差 项 的 贡献 是 一 
样 的 . 因此 , 最 优 核 的 形状 并 不 依赖 于 窗 宽 的 选择 : 艾 氏 核 的 形状 对 任何 希望 的 光 
滑 程度 都 是 最 优 的 [373]. 

例 10.5 ( 双 峰 密度 , 续 ) ”图 10.6 ERTA 10.1 中 数据 的 核 密度 估计 , 该 数据 是 
WESER N(4, 1?) 和 N(4, 22) 等 权重 混合 生成 的 . 对 每 种 形状 的 典 则 核 , 窗 宽 
都 设 为 0.69, 这 是 正 态 核 的 Sheather-Jones 窗 宽 . 由 于 其 不 连续 性 , 均匀 核 得 到 一 
个 明显 粗糙 的 结果 , 艾 氏 核 和 均匀 核 都 提供 了 些许 的 (错误 的 ) 信息 , 即 较 低 的 峰值 
包含 两 个 小 的 局 部 峰值 . 除了 这 些小 的 区 别 外 , 所 有 这 些 核 的 结果 从 性 质 上 都 是 一 
样 的 . 该 例 说 明 , 即使 差别 很 大 的 核 也 可 重新 调整 刻度 以 得 到 如 此 相似 的 结果 , 以 
至 于 核 的 选择 显得 不 太 重要 了 . 口 


均匀 RK 


国医 


图 10.6 例 10.1 中 数据 的 核 密度 估计 , 其 中 表 10.1 中 的 
6 个 核 都 用 典 则 形式 且 h= 0.69( 虚 线 ) 


10.3 非 核 方法 
对 数 样 条 


三 次 样 条 是 处 处 二 次 连续 可 微 , 但 三 阶 导数 可 能 在 有 限 个 给 定 的 节点 上 不 连续 
的 分 段 三 次 函数 . 我 们 可 以 把 三 次 样 条 看 成 是 每 两 个 节点 之 间 为 三 次 多 项 式 , 在 各 
节点 处 二 次 连续 可 微 地 粘 在 一 起 的 函数 . Kooperberg 和 Stone 的 对 数 样 条 密度 估 
计 方 法 是 通过 某 种 形式 的 三 次 样 条 估计 f 的 对 数 的 [339,520]. 
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该 方法 提供 了 区 间 (LU) 上 的 一 元 密度 估计 , 其 中 每 个 终点 可 能 是 无 穷 . 假设 
有 M > 3 个 节点 吉 ,j =1,---,M RPL <t <te<---<ty <U. 节点 的 选择 
将 在 以 后 讨论 . 

令 5 为 包含 节点 在 ti, ,tm 上 的 三 次 样 条 且 在 (Lti) 和 [tm, U) 上 为 线性 
的 M- 维 空间 . 令 S 的 基 表 示 为 函数 {1, B1,… , Bm} 某 些 类 型 的 基 有 数值 上 
的 优势 , 更 详尽 的 细节 请 参考 关于 样 条 方面 的 书籍 及 本 节 中 涉及 的 其 他 参考 文献 
[124,488]. 也 许 会 选 基 函 数 使 得 在 (Lti) 上 Bı 是 负 和 斜率 的 线性 函数 而 其 他 B; 都 
是 常数 , 或 者 使 得 在 [tar,U) 上 Bu 是 正 斜率 的 线性 函数 而 其 他 B 都 是 常数 . 

现在 考虑 用 如 下 定义 的 参数 化 的 密度 fxle 对 f BK, 


log fxle(zl8) = 91 Bi(z) 二 …:+9x-iBw-i(z) 一 c(9)， (10.34) 


其 中 
U 
exp {c(0)} -f exp {91 Bı (1) + ---+ 0m-1Bm-1(2)}dz, (10.35) 


且 6= (01,… 0m) 这 要 成 为 一 个 密度 的 合理 模型 , 我 们 要 求 (0) 是 有 限 的 , 这 
可 通过 以 下 两 个 条 件 来 保证 : (i)L > —co BR 0 < 0 Al (ii)U <oo 或 9w_1<0. 对 
给 定 的 观测 数据 值 z1,… , zn, 在 该 模型 下 9 的 对 数 似 然 为 


lOlz1,.. tn) = > log fxie(zil0). (10.36) 
i=l 


只 要 节点 的 位 置 使 得 在 每 个 区 间 段 都 有 足够 多 的 观测 用 来 估计 , 那么 在 c(0) 有 
限 这 一 限制 条 件 下 最 大 化 (10.36) 可 得 极 大 似 然 估计 6， 该 估计 是 唯一 的 , 因为 
(Oler,--- ,zn) ARR. 估计 了 模型 参数 , 我 们 取 


F(x) = fxlelzl9) (10.37) 


作为 f(z) 的 极 大 似 然 对 数 样 条 密度 估计 . 

9 的 极 大 似 然 估 计 是 在 节点 个 数 及 其 摆 放 方式 条 件 下 求 得 的 . Kooperberg 和 
Stone 对 给 定 个 数 节点 的 摆 放 提出 一 种 自动 的 策略 [340]， 他 们 策略 的 做 法 是 在 最 
小 和 最 大 观测 数据 点 处 放置 节点 , 其 他 节点 放 在 关于 中 位 数 对 称 分 布 的 其 他 位 置 ， 
但 不 是 等 间距 的 . 

要 放置 给 定 个 数 的 节点 , 令 ro 表示 数据 的 第 i 个 次 序 统计 量 , i = 1,… ,mi 
此 aay 为 最 小 的 观测 值 . 定义 一 个 近似 分 位 数 函数 g (EL) = ayy, 1< i<n, 其 
中 对 非 整 数 i, q 的 值 通过 线性 内 插 得 到 . 

对 一 列 数 0 < r2 < r3 < … < rm <1, M 个 节点 将 放 在 T0) zt 及 由 
alra) ,g(rm-1) 标记 的 次 序 统计 量 的 位 置 上 . 
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当 (L,U) = (—00, 00) 时 , 内 部 节点 的 放置 由 下 列 对 节点 间距 的 限制 所 决定 : 对 
1<i< M/2, 


n(ri+ı — Ti) = 4 - max{4 — e, 1} - max{4 — 2e, 1}---max{4—(i—1)e, 1}, 


其 中 m = 0 H e 的 选择 满足 当 M AAR rosy = 1/2, 或 当 M 为 偶数 时 
7M/2 十 rM/2+l = 1. 其 余 节 点 的 放置 应 保证 分 位 数 的 对 称 , 于 是 对 M/2 < i < M-1, 


TM+1-i — TM-i = Tit — Ti, (10.38) 


其 中 rw = 1. 

当 (L,U) 至 少 一 端 有 限时 , 也 提出 了 类 似 的 节点 放置 方法 . 特别 地 , 如 果 (L, U) 
为 有 限 长 度 区 间 时 , 选择 ">>,… ,rm_1 为 等 距离 放置 , 因此 ri = i 

前 面 假设 节点 格 数 M 是 预先 给 定 的 . 实际 上 可 能 有 多 种 选择 M 的 方法 , 但 
是 选择 节点 个 数 的 方法 涉及 一 点 , 其 中 对 介绍 方法 的 完全 描述 超出 了 我 们 的 讨论 范 
围 . 概括 来 说 , 该 过 程 如 下 . 首先 把 少量 节点 放 在 上 面 给 定 的 位 置 上 . 建议 的 最 小 值 
为 超过 min{2.5n1/5,n/4,n*,25} 的 第 一 个 整数 , 其 中 n* 为 不 同 数据 点 的 个 数 ， 然 
后 其 他 的 节点 一 次 一 个 地 加 到 现存 的 集合 中 . 每 次 循环 中 , 在 该 节点 不 存在 时 模型 
满足 的 Rao 检验 统计 量 最 大 值 的 位 置 增加 一 个 节点 [341,520]. 无 需 检验 显著 水 平 ， 
该 过 程 直到 节点 总 数 达 到 min{4nl/5,m/4,m*,30} 或 者 由 于 对 节点 的 位 置 或 对 节点 
附近 的 限制 而 没有 新 的 节点 可 以 添加 为 止 . 

然后 , 各 节点 依次 逐个 删除 . 一 个 节点 的 删除 相当 于 移 除 一 个 基 函 数 . 令 6 = 
(91,… ,bm-1) 表示 当前 模型 中 参数 的 极 大 似 然 估 计 . 那么 检验 第 ; 个 基 函 数 贡 献 显 
著 性 的 Wald 统计 量 为 不 /SE{6}, 其 中 SE{6;} 为 观测 的 信息 矩阵 逆 矩 阵 , -到 (8)-: 
的 第 i 个 对 角 元 的 平方 根 [341,520]. 去 掉 后 可 使 Wald 统计 量 的 值 达 到 最 小 的 节点 
将 被 删 掉 , 序 贯 删除 一 直到 大 概 只 有 三 个 节点 时 停止. 

序 贯 地 删除 节点 之 后 紧 接着 就 是 序 贯 地 添加 节点 , 这 产生 一 列 共 5 个 模型 , 其 
中 节点 个 数 各 不 相同 . 对 s = 1,… ,5, 令 ms 表示 第 s 个 模型 的 节点 个 数 , 为 选择 
序列 中 的 最 优 模型 , 令 


BIC(s) = —21(B.|21,--- ,zn) + (ms — 1)logn (10.39) 


度量 第 s 个 模型 的 质量 , 其 中 该 模型 相应 参数 向 量 的 MLE 为 9。. 量 BIC(s) 是 模 
型 比较 的 Bayes 信息 准则 [321,490]; 模型 质量 的 其 他 度量 也 可 去 研究 . 模型 序列 中 ， 
BIC(s) 最 小 的 模型 给 出 了 选择 的 节点 个 数 . 

节点 选择 过 程 的 其 他 细节 请 参考 [341,520]. KF S-plus 和 R 语言 进行 对 数 
样 条 密度 估计 的 软件 见 [97,338]， 节 点 的 逐步 添加 和 逐步 删除 是 一 种 并 不 能 保证 
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找到 最 优 节点 集合 的 贪 禁 搜索 策略 . 其 他 搜索 策略 也 是 有 效 的 , 包括 MCMC 策略 
[265,520]. 

对 数 样 条 方法 是 根据 样 条 近似 进行 密度 估计 的 几 种 有 效 方法 之 一 , 另 一 种 在 
[250] 中 给 出 . 
例 10.6 (鲸鱼 泗 游 , 续 ) 10.7 显示 了 例 10.2 中 鲸鱼 幼 仔 润 游 数据 的 对 数 样 条 
密度 估计 ( 实 线 ). 采用 上 面 所 示 的 程序 , 选 出 了 一 个 具有 7 个 节点 的 模型 . 这 7 个 
节点 的 位 置 见 图 中 实 点 所 示 . 在 初始 节点 放置 、 逐 步 节点 添加 及 逐步 节点 删除 的 各 
种 阶段 考虑 过 4 个 其 他 节点 , 但 根据 BIC 准则 在 最 终 选择 的 模型 中 没有 使 用 这 些 
节点 . 这 些 抛弃 的 节点 见 图 中 的 空心 点 . 图 10.7 中 所 见 的 光滑 度 是 典型 的 对 数 样 
条 估计 因为 样 条 是 逐 段 三 次 和 二 次 连续 可 微 的 . 


1000 “1200 i “abo 
自从 4 月 5 日 午夜 后 的 小 时 数 
图 10.7 Al 10.6 中 弓 头 鱼 幼 仔 泗 游 数据 的 对 数 样 条 密度 估计 ( 实 线 )， 直 方 图 下 面 的 点 表 
示 哪 儿 使 用 了 节点 ( 实 点 ) 和 哪儿 考虑 了 但 被 拒绝 的 节点 (中 空 点 ). 两 种 其 他 节 
点 选择 的 对 数 样 条 密度 估计 用 虚线 和 短 划 线 表示 , 详 见 正文 


有 时 如 果 节 点 个 数 不 足 或 放置 不 好 的 话 ， 局 部 峰值 的 估计 也 是 一 个 问题 . 图 
10.7 中 其 他 线条 显示 的 是 两 种 其 他 节点 选择 的 对 数 样 条 密度 估计 . 效果 非常 不 好 的 
估计 ( 短 划 线 ) 是 用 6 个 节点 得 到 的 . 另 一 个 估计 (虚线 ) 是 用 图 中 带 有 中 空 点 或 实 
点 的 总 共 7 个 节点 得 到 的 . 口 


10.4 ”多 元 方法 
密度 函数 /的 多 元 密度 估计 是 基于 从 7 中 抽 得 的 独立 同 分 布 的 随机 变量 得 到 
的 . 我 们 用 Xi = (Xas, Xip) 表示 p 维 变量 . 
10.4.1 ”问题 的 本 质 


多 元 密度 估计 是 与 一 元 密度 估计 显著 不 同 的 工作 . 当 支 撑 区 域 超过 两 三 维 时 ， 
对 任何 导出 的 密度 估计 可 视 化 都 是 非常 困难 的 . 因此 除非 采取 某 些 降 维 措施 , 否则 
作为 一 种 探索 性 数据 分 析 的 工具 , 多 元 密度 估计 的 用 处 将 大 减 . 然而 , 多 元 密度 估 
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计 在 很 多 更 加 精细 的 统计 计算 算法 中 是 非常 有 用 的 一 部 分 , 其 中 对 估计 的 可 视 化 不 
做 要 求 . 

多 元 密度 估计 也 受 维 数 祸根 的 限制 . 高 维 空间 和 1, 2 或 3 维 空间 有 很 大 的 不 
同 . 用 不 严谨 的 说 法 来 讲 , 高 维 空间 浩瀚 无 边 , 空间 中 的 点 只 有 寥 罕 无 几 的 儿 个 临 
近 点 . 为 了 解释 方便 , Scott 定义 了 标准 p 维 正 态 密度 的 尾部 区 域 , 即 包含 概率 密度 
小 于 众 数 密度 百 分 之 一 的 所 有 点 [492]. 尽管 当 p = 1 时 , 只 有 0.2% 的 概率 密度 落 
入 该 尾部 区 域 , 而 当 p= 10 时 有 一 半 多 的 概率 密度 落 入 该 尾部 区 域 , 当 p= 20 时 
竞 达 98% 都 落 入 该 区 域 . 

维 数 的 祸根 对 密度 估计 有 重要 的 含义 . 比方 说 , 考虑 基于 来 自 p 维 标准 正 态 分 
布 的 n 个 点 的 随机 样本 得 到 的 核 密度 估计 . 下 面 我 们 涉及 几 种 方法 来 构造 这 种 估 
计量 ; 这 里 我 们 采用 共同 窗 宽 正 态 核 的 所 谓 的 乘积 核 方法 , 但 即使 在 我 们 的 讨论 之 
后 也 未 必 能 理解 该 方法 . 定义 原点 处 的 最 优 相对 根 均 方 误差 为 


mina {MSEn(f(0))} 
f(0) 


HP f A n 个 点 的 一 组 样本 用 最 好 的 可 能 窗 宽 来 估计 f. 该 量度 量 了 在 真实 众 数 
处 多 元 密度 估计 的 质量 . 4 p= 1,n = 30 时 ORRMSE(1, 30) = 0.028 9. 表 10.2 Xf p 
的 不 同 值 列 出 了 要 和 ORRMSE(p, n) 达到 同样 低 的 值 所 需要 的 样本 量 . 表 中 的 样本 
量 显 示 到 三 位 有 效 数字 . 对 每 个 不 同 的 n 和 用 不 同 的 窗 宽 最 小 化 ORRMSE(p, n), 
因此 表 中 的 元 素 是 通过 固定 p 对 n 进行 搜索 计算 得 到 的 , 其 中 对 每 个 试验 的 n 值 
都 需要 对 h 进行 优化 . 该 表 进 一 步 证 明了 理想 的 样本 量 随 p 的 增加 而 迅速 增加 . 实 
际 应 用 中 , 情况 并 不 像 表 10.2 显示 的 那么 差 . 有 时 可 用 多 种 方法 得 到 充分 的 估计 ， 
尤其 是 那些 试图 通过 降 维 来 简化 问题 的 方法 . 
表 10.2 Mn = 30 的 一 维 数据 在 原点 处 取得 的 最 优 相对 根 均 方 误差 一 样 时 所 需要 


的 样本 量 . 这 些 结果 适合 于 p 元 正 态 密度 的 估计 ,其 中 每 种 情况 下 使 用 具有 
能 最 小 化 原点 处 相对 根 均 方 误差 的 窗 宽 的 正 态 乘积 核 密度 估计 . 


ORRMSE(p,m) = 


n 


Pp 

1 30 

2 180 

3 806 

5 17, 400 
10 112, 000, 000 
15 2, 190, 000, 000, 000 
30 806, 000, 000, 000, 000, 000, 000, 000, 000 
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10.4.2 ”多 元 核 估计 
(10.6) 中 一 元 核 密度 估计 到 p 维 密度 估计 最 直接 的 推广 是 广义 多 元 核 估计 


flz) = aH UK ex), (10.40) 


其 中 五 为 p xp 的 非 奇异 常数 阵 , HTSUS |X| 表示 . 函数 K 为 实 值 多 元 核 
函数 且 fro = 1, /zedz = 0, f x2" K(2)dz 三 了, 其 中 了 为 pxp 的 
单位 阵 . 

该 估计 量 比 通常 要 求 的 更 加 灵活 . 它 可 以 使 用 任何 形状 的 p 维 核 以 及 通过 H 
允许 任意 的 线性 旋转 和 调整 刻度 . 指定 H 中 大 量 的 窗 宽 参数 以 及 在 p 维 空间 上 指 
定 核 的 形状 , 这 都 是 很 不 方便 的 . 比较 实际 的 是 寻求 H A K 有 较 少 参数 的 具体 形 
式 . 

冬 积 核 方法 大 大 简化 了 计算 . 密度 估计 为 


f(x) = ISI EK (2 7%) ; (10.41) 
其 中 K (2) 为 一 元 核 函数 , w = (21, , 2p), Xi = (Xas, Xip), hy 对 每 个 坐标 为 


固定 窗 宽 , j = 1,… ,p. 
另外 一 种 简化 方法 允许 K 为 p 维 对 称 单 峰 密 度 函 数 , 且 令 


flz) = ais (==) (10.42) 
这 种 情况 下 , 多 元 艾 氏 核 的 形状 
| HDLU + p/2) (, —27z), Hak <1, 
K(z)= 


2rz/2 (10.43) 
0, 否则 


在 渐进 积分 均 方 误差 下 是 最 优 的 . 然而 和 一 元 核 密度 估计 情况 类 似 , 很 多 其 他 核 得 
到 的 结果 基本 上 是 等 价 的 . 

(10.42) 中 唯一 的 固定 窗 宽 意 味 着 和 每 个 观测 数据 点 相关 的 概率 分 布 向 各 个 方 
向 均匀 散 开 . 当 数据 在 不 同方 向 上 有 不 同 的 变异 性 , 或 数据 几乎 位 于 一 个 低 维 流 形 
上 时 , 认为 各 个 方向 都 有 同样 的 尺度 得 到 的 估计 往往 不 太 理想 . Fukunagaf186] 建议 
把 数据 做 线性 变换 使 其 有 单位 协 方差 阵 , 然后 用 一 个 完全 对 称 的 核 由 (10.42) 对 变 
换 后 的 数据 进行 密度 估计 , 然后 再 变换 回去 得 到 最 终 的 估计 . 为 进行 变化 , 对 样本 
协 方差 矩阵 进行 特征 值 特征 向 量 分 解 使 得 全 = PAPT, 其 中 4 为 特征 值 按 降序 排 
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列 的 p x p 的 对 角 阵 , P 为 标准 正 交 的 px p 矩阵 且 列 为 4 中 特征 值 相 应 的 特征 
向 量 . 令 X 为 样本 均值 . 那么 Z; = a? PTX; - X) i = 1,… ,n 给 出 了 变换 
后 的 数据 . 该 过 程 通常 称 为 白化 或 球 化 数据 . 对 对 称 核 K 来 说 , 对 变换 后 的 数据 用 
(10.42) 中 的 核 密度 估计 等 价 于 在 原始 数据 用 密度 估计 


BP? SN ((@-X)TE e- X) 
nh? h i 


i=1 


(10.44) 


在 如 上 各 种 选择 提供 的 复杂 性 范围 内 , 从 表现 和 灵活 性 来 看 , (10.41) 中 的 乘积 
核 方 法 通常 优 于 (10.42) 和 (10.44). 乘积 核 的 使 用 也 简化 了 数值 计算 及 核 的 刻度 调 
整 


与 一 元 情况 类 似 , 对 乘积 核 密度 估计 也 可 能 得 出 渐进 积分 均 方 误差 的 表达 式 . 
最 小 化 窗 宽 hh,… hp 为 p 个 非 线性 方程 组 的 解 . 最 优 的 hi 都 是 O(n- V+), H 
对 这 些 最 优 的 hi 有 AMISE(h1,… , hp) = O(n-/+4)), 乘积 核 密 度 估计 的 窗 宽 选 
择 及 其 他 多 元 方法 的 研究 远 不 如 一 元 情况 研究 的 深入 

这 种 情况 下 窗 宽 选 择 可 能 最 简单 的 方法 是 假设 f 为 正 态 的 , 从 而 简化 了 关于 
hi,… ,hp 最 小 化 AMISE(h1,… hp) 的 计算 . 这 提供 了 一 个 与 一 元 情况 下 Silver- 
man 的 大 拇指 法 则 类 似 的 窗 宽 选择 的 理论 基础 ， 对 正 态 乘积 核 方法 ,得 到 的 窗 宽 
为 


4 1/(p+4) 
h= | a ĝi, i=1,---,p, 45 
(m) Gi, i P. (10.45) 


其 中 6; 为 第 i 个 坐标 方向 上 标准 偏差 的 估计 . 和 一 元 情形 类 似 , 使 用 文件 尺度 估计 
可 以 改善 表现 情况 . 当 使 用 非 正 态 核 时 , 正 态 核 的 窗 宽 可 用 (10.32) 和 表 10.1 重新 
调整 刻度 以 给 出 与 所 选 核 类 似 的 窗 宽 . 

Terrell 的 极 大 光滑 原则 也 能 用 于 p 维 问题 . 假设 我 们 用 (10.40) 给 出 的 一 般 的 
核 密度 估计 , 其 中 核 函 数 为 具有 单位 协 方差 阵 的 密度 函数 . 那么 极 大 光滑 原则 表明 
选择 的 窗 宽 矩 阵 五 应 满足 


(p +8)P+6)/27P/2R(K) 2/(p+4) 


a 
HAs = [ 16n(p + 2)P'((p + 8)/2) (10.46) 


其 中 È 为 样本 协 方差 阵 . 利用 该 结果 我 们 可 对 正 态 乘积 核 找到 极 大 光滑 窗 宽 . 然 
后 如 果 想 用 另 一 个 乘积 核 形状 , 再 用 (10.32) 和 表 10.1 对 逐个 坐标 的 窗帘 重新 调整 
刻度 . 

像 其 他 一 些 自动 窗 宽 选 择 程序 一 样 , 交叉 验证 方法 也 可 推广 到 多 元 情形 . 然而 ， 
在 一 般 p 维 问题 中 这 种 方法 总 的 表现 并 没有 很 多 文献 加 以 证 明 . 
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10.4.3 ” 自 适 应 核 及 最 近邻 


采用 普通 的 固定 核 密度 估计 , K 的 形状 及 窗 宽 都 是 固定 的 . 这 决定 了 一 种 不 变 
的 邻近 观念 ，X; 附近 加 权 的 贡献 确定 了 f(z), 其 中 权重 根据 X 和 zx 的 临近 程度 
确定 . 比方 说 采用 均匀 核 , 估计 是 根据 在 一 个 固定 形状 滑动 窗口 内 观测 的 变量 数 来 
确定 的 . 

换个 角度 考虑 也 很 有 价值 : 允许 区 域 变换 大 小 , 但 要 求 ( 某 种 意义 下 ) 有 固定 
个 数 的 观测 值 落 入 其 中 . 那么 较 大 的 区 域 对 应 于 低 密度 的 范围 , 较 小 的 区 域 对 应 于 
高 密度 的 范围 . 

可 以 证 明 , 由 该 原则 得 到 的 估计 量 可 写成 带 有 变 窗 宽 的 核 估计 的 形式 , 该 变 窗 
宽 自 适应 于 观测 数据 点 的 局 部 密度 . 这 种 方法 冠 以 各 种 名 称 , 如 自 适应 核 估计 , E 
窗 宽 核 估计 或 变 核 估计 . 下 面 我 们 回顾 三 种 特殊 策略 . 

自 适应 方法 的 动机 在 于 , 固定 窗 宽 可 能 并 不 会 处 处 合适 .在 数据 稀少 的 区 域 ， 
较 宽 的 窗 宽 有 助 于 防止 对 异常 值 过 于 局 部 敏感 . 相反 , 在 数据 充足 的 地 方 , BR 
窗 宽 有 助 于 防止 过 度 光滑 带 来 的 偏差 . 用 固定 Sheather-Jones 窗 宽 再 次 考虑 图 10.5 
给 出 的 弓 头 鲸 幼 仔 酒 游 次 数 的 核 密度 估计 . 对 少 于 1 200 和 多 于 1 270 小 时 的 泗 游 
次 数 , 估计 表现 出 很 多 峰值 , 然而 这 些 峰 值 中 有 多 少 是 真实 的 , 有 多 少 是 抽样 变异 
性 引起 的 假象 , 我们 并 不 清楚 . 要 想 充分 增加 窗 宽 以 光滑 掉 尾部 一 些小 的 峰值 , 同 
时 还 不 要 光滑 掉 1 200 和 1 270 之 间 主 要 的 双 峰 , 这 是 不 可 能 做 到 的 . 只 有 窗 宽 局 
部 的 变化 才能 得 到 如 此 改善 . 

理论 上 来 说 , 当 p = 1 时 自 适应 方法 比 简单 的 方法 没什么 优越 性 , 但 实际 上 在 
某 些 例子 中 某 些 自 适应 方法 表现 得 相当 有 效 . 对 中 等 或 较 大 的 p 值 , 理论 分 析 表 明 
自 适应 方法 的 表现 可 能 比 标准 核 估 计 方 法 要 好 得 多 , 但 这 种 情况 下 自 适应 方法 的 实 
际 表 现 并 没有 被 完全 理解 . 关于 自 适应 方法 一 些 表 现 的 比较 可 参考 [312,492,532]. 
1， 最 近邻 方法 

大 近邻 密度 估计 


k 

© nVpde(@)? 
是 第 一 个 明确 采用 变 窗 宽 观点 的 方法 [362]. 该 估计 量 中 , dk(z) 为 = 到 第 k 个 最 
近 观 测 数 据点 的 欧 氏 距离 , 你 为 p 维 单位 球体 的 体积 , 其 中 p 为 数据 的 维 数 . 由 于 
V, = nP/?/T(p/2 + 1), 注意 到 dx(z) 为 (10.47) 式 中 唯一 随机 的 量 , 因为 它 依赖 于 
Xi Xn. 从 概念 上 来 讲 , = 点 处 密度 的 近邻 估计 为 k/n 除 以 以 z 为 中 心包 
含 半 个 观测 数据 值 中 大 个 的 最 小 球体 的 体积 . 最 近邻 中 数字 起 到 与 窗 宽 类 似 的 
作用 : 大 的 值得 到 光滑 的 估计 , 小 的 k 值得 到 弯曲 的 估计 . 

估计 (10.47) 可 以 看 成 是 核 估 计量 , 其 中 窗 宽 随 = 的 变化 而 变化 , KARA p 


f(z) (10.47) 
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维 单位 球体 上 均匀 分 布 的 密度 函数 . 对 任意 核 , 最 近邻 估计 可 以 写成 


fle) = aa 2K (at) ; (10.48) 
如 果 dk(z) 用 任意 函数 hi(z) 代替 , 这 可 能 不 会 明确 表示 距离 , 那么 建议 使 用 名 
称 球状 估计 , 因为 窗 宽 通 过 依赖 于 z 的 函数 膨胀 或 收缩 [532]， 最 近邻 估计 渐进 
地 属于 这 种 类 型 : 例如 , 用 dy (ae) 作为 均匀 核 最 近邻 估计 的 窗 宽 渐进 地 等 价 于 用 
h(a) = (rda) ”的 球形 估计 窗 宽 , A n > oc,k + co H k/n 一 0 时 ， 
water > f(z). 

最 近邻 估计 和 球形 估计 都 表现 出 很 多 令 人 吃惊 的 性 质 ， 首先 , 选择 K 为 密 
度 并 不 能 保证 f 也 是 一 个 密度 ; 例如 ，(10.47) 中 的 估计 量 并 没有 有 穷 积分 ， 其 
次 , 当 p = 1 且 K 为 零 均值 单位 方差 的 密度 时 , 选择 从 (z) = 志和 a 相 比 于 标准 
的 核 估 计 并 不 能 给 出 任何 渐进 的 改进 , 不 管 k 如 何 选择 [492]， 最后, 可 以 证 明 当 
ha) = h(a) = (LRE 时, 一 元 球形 估计 的 逐 点 渐进 均 方 误差 达到 最 小 然 
而 , 即使 采用 最 优 的 逐 点 自 适应 窗 宽 ， 当 f 大 概 为 对 称 和 单 峰 时 , 一 元 球形 估计 的 
渐进 效率 比 普通 固定 窗 宽 核 估计 的 渐进 效率 也 没有 改善 太 多 .因此 看 来 当 p = 1 
时 , 最 近邻 估计 和 球形 估计 都 不 是 一 个 好 的 选择 . 

另 一 方面 , 对 多 元 数据 , 球形 估计 表现 要 好 的 多 . 球形 估计 的 渐进 效率 大 大 超 
过 标准 多 元 核 估计 的 渐进 效率 , 即便 是 对 相对 较 小 的 p 值 及 对 称 单 峰 的 数据 (532). 
如 果 进 一 步 把 (10.48) 推广 为 


1 = ay 
f(x) = HGj 2 KH) (x — X;)), (10.49) 


其 中 五 (z) 为 随 着 z 的 变化 而 变化 的 窗 宽 矩 阵 , 那么 我 们 有 效 地 允许 核 形 式 的 贡 
献 随 z 的 变化 而 变化 . 当 A (a) = hi(z)T 时 , 一 般 形式 又 变 回 到 了 球形 估计 . 进 一 
步 , 令 hilz) = dal(a) 将 得 到 (10.48) 式 中 的 最 近邻 估计 . 关于 互 (z) 更 一 般 的 选择 
在 [532] FEMER. 


2.， 变 核 方 法 及 变换 
变 核 或 样本 点 自 适 应 估计 可 写成 
网 Le —X; 
f(a) = nek (S=) (10.50) 


其 中 K 为 多 元 核 , hi 是 以 X: 为 中 心 的 核 贡 献 的 窗 宽 [60]. 例如 , h; 可 能 设 为 从 
X: 到 第 个 最 近 的 其 他 观测 数据 点 的 距离 , 这 样 hi = dr(X:). 更 一 般 的 窗 宽 矩 阵 
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H: 依赖 于 第 i 个 抽样 点 的 变 核 估计 也 是 可 能 的 (J (10.49)), 但 这 里 我 们 只 关注 较 
简单 的 形式 . 

(10.50) 式 中 的 变 核 估计 是 形状 相同 但 尺度 不 同 且 以 各 个 观测 为 中 心 的 多 个 核 
的 混合 . 令 窗 宽 作 为 X 的 函数 而 不 是 = 的 函数 来 变化 , 这 可 以 保证 不 管 K 是 不 
是 一 个 密度 , f 都 是 一 个 密度 . 

变 核 方法 的 最 优 窗 宽 依赖 于 f. f 的 导 频 估计 可 用 来 指导 窗 宽 的 调整 . 考虑 下 
面 的 一 般 策 略 . 

(1) 构造 一 个 导 频 估计 F(z), 其 对 所 有 观测 zi 都 严格 为 正 . 例如 , 导 频 估计 可 
采用 根据 (10.45) 选择 窗 宽 的 正 态 乘积 核 密度 估计 . 如 果 f 是 以 在 某 个 zi 可 能 等 
于 或 接近 于 零 的 估计 为 基础 的 , 那么 当 估计 超过 e 时 , 令 f(x) 等 于 估计 的 密度 ; 否 
WW f(a) = e. 选择 任意 小 的 常数 e > 0 通过 对 自 适 应 选择 的 窗 宽 给 出 一 个 上 界 来 
进行 改善 . 

(2) 令 自 适应 窗 宽 为 hi = h/ fX), 其 中 敏感 参数 0 < a < 1. 参数 h 承担 窗 
宽 参 数 的 作用 , 即 可 以 通过 调整 来 控制 最 终 估计 的 总 体 光滑 度 . 

(3) 对 窗 宽 为 第 2 步 找到 的 h; 应 用 (10.50) 的 变 核 估计 得 到 最 终 的 估计 . 

通过 控制 窗 宽 为 响应 y 的 可 疑 变 化 而 改变 的 快慢 , 参数 a 影响 局 部 自 适应 性 
的 程度 . 渐进 观点 和 实际 经 验 都 支持 设 定 a = 1/2, 这 得 到 Abramson 的 方法 [3]. 很 
多 研究 者 发 现 该 方法 在 实际 中 表现 很 好 [507,575]. 

另 一 种 方法 是 令 a = 1/p, 这 得 到 一 种 与 Breiman,Meisel and Purcell [60] 的 自 

适应 核 估 计 渐 进 等 价 的 方法 ， 这 种 选择 保证 了 尺度 核 获得 的 观测 数据 点 的 个 数 大 
概 处 处 相等 [507]. 算法 中 , 这 些 作者 对 地 用 了 最 近邻 方法 并 对 可 能 依赖 于 大 的 光 
HBR h 设 为 hi = hdi (Xi). 
例 10.7 (二 元 t 分 布 ) ”为 说 明 自 适应 方法 潜在 的 好 处 , 考虑 从 大 小 为 n = 500 
的 一 组 样本 估计 二 元 t 分 布 (有 两 个 自由 度 ). 在 非 自 适应 方法 中 , 我 们 采用 正 态 乘 
积 核 , 其 中 每 个 窗 宽 由 Sheather-Jones 方法 选择 . 在 自 适应 方法 中 , 我 们 用 具有 正 
态 乘积 核 的 Abramson 的 变 核 方法 (a = 1/2), 导 频 估计 取 非 自 适应 方法 的 结果 ， 
e = 0.005, E h 设 为 非 自 适应 方法 中 各 个 坐标 窗 宽 的 均值 乘 以 F(X: 的 几何 均 
值 . 

图 10.8 中 左边 的 面板 显示 了 沿 co = 0 这 条 线 上 具有 两 个 自由 度 的 二 元 t 分 布 
j 的 真实 值 . 换 句 话说 , 该 图 显示 了 真实 密度 的 一 个 切片 . 图 10.8 中 间 的 面板 显示 
了 非 自 适应 方法 的 结果 . 估计 的 尾部 表现 出 不 受 欢迎 的 波动 , 这 是 由 几 个 异常 值 位 
于 的 尾部 区 域 处 不 合适 的 窄 窗 宽 所 引起 的 . 图 10.8 中 右边 的 面板 显示 了 Abramson 
方法 的 结果 . 窗 宽 在 尾部 非常 宽 , 因此 在 这 些 区 域 得 到 的 估计 比 固定 窗 宽 方法 得 到 
的 光滑 得 多 . Abramson 方法 在 估计 的 众 数 附近 也 用 了 较 窄 的 窗 宽 . 对 我 们 的 随机 
样本 这 表现 出 轻微 的 迹象 , 但 有 时 这 种 效果 是 可 以 断言 的 . 口 
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图 10.8 fl 10.7 的 结果 . 图 中 三 个 面板 显示 了 在 z2 = 0 的 一 维 切片 上 的 二 元 密度 值 ， 从 
左 到 右 的 顺序 依次 为 : 两 个 自由 度 的 真实 二 元 t 分 布 , 用 固定 窗 宽 乘 积 核 方法 得 
到 的 二 元 估计 , 用 文中 描述 的 Abramson 的 自 适应 方法 得 到 的 二 元 估计 


讨论 了 变 核 方法 并 关注 了 其 在 高 维 中 的 应 用 , 接 下 来 我 们 考虑 一 种 主要 用 于 一 
元 数据 的 相关 方法 . 该 方法 说 明了 密度 估计 中 数据 变换 潜在 的 好 处 . 

Wand, Marron 和 Ruppert 注意 到 , 对 做 过 非 线 性 变换 的 数据 进行 固定 窗 宽 核 
密度 估计 等 价 于 对 原始 数据 用 变 窗 宽 核 估 计 [554]. 变换 导致 在 每 个 数据 点 上 不 同 
的 窗 宽 hi. 

假设 一 元 数据 Xi,… Xn 是 来 自 于 密度 fx 的 观测 . 令 


y = ty(x) = oxth(x)/o45 (x) (10.51) 


表示 一 个 变换 , 其 中 t 为 的 支撑 到 以 A 为 参数 的 实 直线 的 单调 递增 映射 ，o 
和 ok (x) 分 别 为 X 和 了 =t (X) 的 方差. 那么 ta 是 一 种 保 刻度 变换 , 它 把 随机 
变量 X ~ fx 映 到 具有 如 下 密度 的 Y: 


by 

例如 , 如 果 X 为 标准 正 态 随 机 变量 且 t) (X) = exp{X}, BA Y 和 X 有 同样 的 方 
差 . 然而 , 以 任何 y 值 为 中 心 、 固 定 窗 宽 为 0.3 的 Y 尺度 当 变 回 到 X 尺度 时 就 有 
变 窗 宽 : 当 z = -1 时 窗 宽大 概 为 2.76, 当 z=1 时 窗 宽 只 有 0.24. 实际 上 , 在 ta 中 
可 以 使 用 样本 标准 差 或 散布 的 稳健 度量 来 保持 尺度 不 变 . 

假设 我 们 用 ta 对 数据 变换 得 到 V1,--- Yn, 然后 对 这 些 变换 后 的 数据 构造 一 
个 固定 窗 宽 核 密度 估计 , 然后 再 把 生成 的 估计 变 回 到 原来 的 尺度 以 得 到 fx 的 估计 . 
AK (10.8) 我 们 知道 对 任何 给 定 的 A, 对 g 的 核 估计 , 最 小 化 AMISE(h) 的 窗 宽 为 


1/5 
= 人 R(K) ) ; (10.53) 


no RQ) 


ar) = fist) | |. (10.52) 


由 于 hy 依赖 于 未 知 的 密度 gy, 所 以 插入 法 建议 用 ROL) = RO) 来 估计 
BR(9A), 其 中 8 为 用 导 频 窗 宽 ho 得 到 的 核 估 计 . Wand, Marron 和 Ruppert 提出 用 


10.4 多 元 方法 253 


Silverman 大 拇指 法 则 的 正 态 核 来 确定 ho, 从 而 得 到 估计 


Ry) = ZR 二 过 o) (24) ; (10.54) 
ižj 


其 中 ho = V55x (SE)? BL AO 为 标准 正 态 密度 的 四 阶 导数 [554]. 由 于 t、 是 

保 尺度 的 , 所 以 Ri, Xn 的 样本 标准 差 , 设 为 5x, 对 ho 的 表达 式 中 使 用 的 Y 

的 标准 差 提供 了 一 个 估计 . 相关 导出 估计 的 思想 在 [259,492] 中 有 所 讨论 
我 们 熟悉 的 Box-Cox 变换 [51] 


_ f @>-1)/A, 如 果 入 关 0， 
sa-{ log z, 如 果 入 =0 


属于 (10.51) 中 可 以 利用 的 参数 化 的 变换 族 . 当 好 的 变换 可 用 或 是 在 多 元 情形 下 ， 
变换 应 使 数据 更 接近 于 对 称 和 单 峰 , 基于 这 种 观点 很 有 好 处 , 因为 在 此 情况 下 显然 
固定 窗 宽 核 密度 估计 表现 很 好 . 

一 元 偏 态 单 峰 密度 情况 下 , 对 变 核 密度 估计 的 这 种 变换 方法 表现 很 好 . 到 多 元 
数据 的 扩展 很 有 挑战 性 , 且 对 多 峰 密度 得 到 的 估计 也 不 好 . 如 果 不 拘泥 于 上 面 所 述 
的 形式 , 数据 分 析 家 通常 会 用 像 对 数 这 样 的 函数 把 变量 变 为 合适 的 尺度 , 并 记 住所 
用 的 变换 以 便 描述 结果 甚至 进行 推断 . 当 需 要 对 原始 数据 进行 推断 时 , 我 们 可 以 根 
据 对 称 性 及 单 峰 性 的 图 形 评价 或 定量 评价 寻找 一 种 变换 策略 , 而 不 是 像 上 面 所 描述 
的 那样 在 一 类 函数 中 进行 优化 . 


10.4.4 ”探索 性 投影 寻 踪 


探索 性 投影 寻 踪 主要 研究 高 维 密度 中 的 低 维 结构 ， 最 终 的 密度 估计 通过 修 
改 标准 的 多 元 正 态 分 布 以 反映 发 现 的 结构 来 构造 . 下 面 描述 的 方法 来 自 于 Fried- 
man[181], 它 推广 了 以 前 的 工作 [185,296]. 

本 节 将 会 遇 到 多 种 变量 的 各 种 密度 函数 . 因此 为 了 记号 清楚 , 我 们 把 密度 函数 
加 一 个 下 标 以 识别 所 讨论 的 密度 函数 是 哪个 随机 变量 的 . 

假设 数据 包含 p 维 变量 Xi Xn ~ ii.d.fx 的 个 观测 .开始 探索 性 投 
影 追踪 之 前 , 首先 对 数据 变换 使 其 均值 为 0, 协 方差 阵 为 Ip 这 可 通过 10.4.2 WH 
示 的 白化 或 球 化 变换 来 完成 . 令 fz 表示 变换 后 变量 Zi, Zn 对 应 的 密度 函数 . 
fz 和 fx 都 是 未 知 的 . 要 估计 fx, 只 需 估计 fz 然后 再 反 变 换 得 到 fx 的 估计 . 
因此 我 们 主要 关心 fz 的 估计 . 

过 程 中 的 几 步 还 依赖 于 另外 一 种 基于 Legendre 多 项 式 展开 的 密度 估计 技巧 . 
Legendre 多 项 式 是 [-1,1] 上 定义 为 Po(u) = 1, P,(u) = u HX} j > 2, Pj(u) = 
[(27 — uP;-1(u) — (G -— 1)P;-2(u)]/j 的 一 列 正 交 多 项 式 , 其 有 如 下 性 质 : 即 对 所 有 


(10.55) 
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了 有 L 范 数 P2(u)du = 2/(2) +1), 见 [2, 479]. 这 些 多 项 式 可 以 用 作 一 组 基 来 
表示 [-1,1] 上 的 函数 . 特别 地 , 我 们 可 用 Legendre 多 项 式 展 开 


f(z) = DP(z) (10.56) 
j=0 
表示 只 在 [-1,1] 上 有 支撑 的 一 元 密度 f, 其 中 
a;= HERIR (X)} (10.57) 


E (10.57) 式 中 的 期 望 是 关于 f RAG. 等 式 (10.57) 的 成 立 只 : 需 注 意 到 正 交 性 及 P) 
的 Lo 范 数 即 可 . 如 果 观 测 到 X1,… ,Xn ~ iid. f, WA + P P(Xi) Æ E{P;(X)} 
的 一 个 估计 . 因此 可 用 


a= HLS PX) (10.58) 
i=l 
作为 f 的 Legendre 展开 中 系数 的 估计 . RE (10.56) 中 J+1 项 以 后 的 和 得 到 估计 
J 
= 》 4;P;(2). (10.59) 
j=0 


描述 完 这 种 Legendre 展开 方法 , 我 们 现在 可 以 开始 研究 探索 性 投影 寻 踪 了 . 

探索 性 数据 寻 踪 的 第 一 步 是 投影 步 . 如 果 Y: = aT Zi, 那么 我 们 说 Y: 是 Zi 在 
a 方向 上 的 一 维 投影 . 第 一 步 的 目标 是 把 多 元 观测 数据 投影 到 一 维 直 线 上 , 使 得 在 
该 直线 上 投影 数据 的 分 布 有 最 多 的 结构 . 

投影 数据 中 结构 的 程度 用 与 正 态 性 的 偏离 量 来 度量 . 令 U(y) = 26(y) - 1, 其 
中 为 标准 正 态 累 积分 布 函 数 . WR Y ~ N(O,1), 那么 U(Y) ~ Unif(—-1, 1). 要 度 
Æ Y 分 布 的 结构 , 只 需 度量 UY) 的 密度 与 Unif(-1,1) 偏离 的 程度 即 可 . 

定义 结构 指标 为 


$ 2 
Sla) = J, [rw 3 引 du= Riu) -3 (10.60) 


其 中 fu AM Z~ fz 时 U(aT2) 的 概率 密度 函数 . 当 Sla) 较 大 时 , 投影 数据 中 
存在 大 量 的 非 正 态 结构 . 当 S(a) 接近 于 零 时 , 投影 数据 几乎 正 态 . 注意 到 S(a) 依 
HF fv, 这 是 必须 要 估计 的 . 

要 从 观测 数据 估计 Sla), 用 fu 的 Legendre 展开 重新 把 (10.60) 式 中 的 R(fv) 
表示 为 


Rio) = > ROMY, (10.61) 


j=0 
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其 中 期 望 是 关于 fu 取 的 . 由 于 U(aT21),… Ula Za) 代表 从 fv 中 抽 得 的 样本 ， 
故 (10.61) 式 中 的 期 望 可 用 样本 距 来 估计 . 如 果 在 (10.61) 式 的 求 和 中 也 截 去 +1 
后 的 各 项 , 我 们 得 到 


ŝia) = yan Ziti (3: Erea (aTZ;)- ») - -3 (10.62) 
j=0 

作为 Sla) 的 估计 . 

因此 , 要 估计 有 最 大 非 正 态 结构 的 投影 方向 , 我 们 需要 关于 a 在 aTa=1 的 
限制 下 最 大 化 Sa). 用 âi 表示 求 得 的 方向 . 虽然 a, 是 由 数据 估计 得 到 的 , 但 
是 当 讨 论 随机 向 量 向 该 方向 投影 的 分 布 时 我 们 还 把 它 看 成 是 一 个 固定 量 . 例如 , 当 
Z~ fz 时 令 jarz 表示 GTZ 的 一 元 边际 密度 , 其 中 把 Z 看 成 是 随机 的 , 把 a 看 
成 是 固定 的 . 

探索 性 投影 追踪 的 第 二 步 是 结构 移 除 步骤 . 目标 是 对 2Z1,… , Zn 应 用 一 种 变 
换 使 得 fz Bld, 的 投影 密度 为 标准 的 正 态 密度 , 而 沿 其 他 任何 正 交 方向 上 的 投影 
分 布 都 不 变 . 为 此 , 令 Ay 为 标准 正 交 阵 且 第 一 行为 âT. 同时 , 对 来 自 于 随机 向 量 
V = Vi,… Vp 的 观测 , 定义 向 量变 换 T(v) = (P7 (Fy, (v1), v2 Up), 其 中 Fv 
AV 中 第 一 个 元 素 的 累积 分 布 函数 . 那么 对 i= 1,… ,mu 令 


ZY = ATT(AiZ,) (10.63) 


就 可 得 到 想 用 的 变换 . (10.63) 中 的 变换 并 不 能 直接 达到 结构 移 除 的 目标 , 因为 它 依 
HTA lorz, 相应 的 累积 分 布 函数 .要 解决 这 个 问题 , 只 需要 把 累积 分 布 函数 用 
âTZ o ÂT Zn 相应 的 经 验 分 布 函数 替换 就 行 了 另 一 种 替换 方法 见 [298]. 

我 们 可 把 ZP i= 1,… ,n 看 成 是 一 种 新 的 数据 集 ， 该 数据 集 包含 随 机 变量 
ZP,- 2 的 观测 值 ， 其 未 知 分 布 fzw 依赖 于 fz. 给 定 到 âi 的 投影 下 , fzo 
Al fz 决定 的 条 件 分 布 有 重要 的 联系 . 具体 来 说 , 给 定 &T ZI 后 ZO 的 条 件 分 布 
等 于 给 定 ATZ, 后 Zi 的 条 件 分 布 , 因为 在 生成 ZO 的 结构 移 除 步骤 移 除了 Zi 的 
所 有 坐标 , 而 只 有 第 一 个 没 变 . 因此 


toner z) 
for z(aFz) > 
等 式 (10.64) 并 没有 给 出 直接 的 方式 来 估计 fz, 但 最 终 证 明 , 重复 上 面 描述 的 整个 
过 程 还 是 很 有 成 效 的 . 
假设 进行 第 二 个 投影 步 . 当前 工作 变量 ZP,- ZO 到 一 个 新 方向 上 的 投影 
是 想 分 出 尽 可 能 多 的 一 维 结构 . 找 这 个 方向 要 求 根据 变换 后 的 样本 ZP, 2) 
计算 一 个 新 的 结构 指数 , 这 将 导致 估计 Go 作为 反映 最 大 结构 的 投影 方向 . 


fza(z) = (10.64) 
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进行 第 二 个 结构 移 除 步 要 求 对 一 个 合适 的 矩阵 4> 重新 应 用 式 子 (10.63), 从 
而 产生 新 的 工作 变量 ZË,- 22. 

重复 与 (10.64) 表达 的 同样 的 条 件 分 布 项 使 我 们 把 新 工作 变量 产生 的 密度 写 为 

dg(GTz)o(G32 2) 
farz(âiz)farzo (G2 z) 


其 中 Sex zo 是 当 ZO ~ fzo 时 ap Z 的 边际 密度 . 

假设 投影 步 和 结构 移 除 步 都 重复 迭代 了 几 次 . 在 某 个 时 刻 , 结构 的 识别 与 移 除 
都 会 导致 新 变量 的 分 布 有 很 少 或 没有 残留 结构 . 换 句 话说 , 它们 的 分 布 在 任何 可 能 
的 一 元 投影 上 几乎 都 是 近似 正 态 的 . 此 时 , 迭代 停止 . 假设 共 进 行 了 M 次 迭代 . AB 
么 (10.65) 式 推广 得 到 


fzo(z) = fa(z) (10.65) 


Izana) = fale) J| #922 (10.66) 
BE ae mai far zim (m2) ` 
其 中 Jarzm-b EM ZOD ~ jzm-o AZO ~ fg BY PZ 的 边际 密度 . 
现在 , 等 式 (10.66) 可 用 来 估计 fz, 因为 一 一 已 经 从 工作 变量 ZOO 的 分 布 中 
排除 了 所 有 的 结构 一 一 我 们 可 以 令 fzuo FF p 维 多 元 正 态 密度 , 记 为 dp 解 fz 
可 得 
far, Zim- » (al z) 
= ġp(z) Il a (10.67) 
尽管 该 等 式 仍 依赖 于 未 知 密度 far ztm-», 但 这 些 可 用 Legendre 近似 策略 去 
估计 . 注意 , 如 果 对 ZOD ~ fym- 有 Um-D = 204 ZY) — 1, 那么 
faz gin (B-((u + 1)/2)) 
26(®-1!((uw+ 1)/2)) 
通过 Zen)... Zor) 得 到 的 ug» „UD, A fum- 的 Legendre 展开 
及 样本 距 来 估计 


J f2j+1 = (m-t) 
Fumo (u) = PY PU™ inp. (10.69) 
i=1 


j=0 


fum- (u) = (10.68) 


用 fym- 替换 (10.68) 中 的 fyon— 并 分 出 faz zo-o, 可 以 得 到 
far goon) (Gmz) = 2jut-o(28(Gmz) — NO(Gmn2)- (10.70) 
因此 , 由 (10.67) 得 fz(z) 的 估计 为 


M J 
f(z) = 42) II {se DA (28672) ~ 1) Pm). (10.71) 


m=1 | j=0 
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其 中 
Pin = ae (aanze) -1) (10.72) 


是 用 结构 移 除 过 程 中 储存 的 工作 变量 估计 的 , 且 ZO = Zi. 通过 对 fz 应 用 变量 变 
RX = PAZ + 元 进行 球 化 变换 的 道 变换 可 得 到 估计 fx. 

估计 fz 受 数 据 中 心 部 分 的 影响 最 强 , 这 主要 因为 变换 U 把 fz 尾部 的 信息 压 
缩 到 区 间 [—1,1] 端点 的 部 分 . 在 该 区 间 这 么 窗 的 范围 内 , 低 阶 Legendre 多 项 式 展 
FRERE fu 的 大 量 特征 . 进一步 , 影响 每 个 âm 选择 的 结构 指数 对 只 有 投影 尾 
部 行为 是 非 正 态 的 方向 不 会 赋 以 很 高 的 结构 . 因此 , 探索 性 投影 寻 踪 应 该 主要 看 成 
是 一 种 方法 , 用 这 种 方法 提取 密度 的 这 些 可 通过 数据 的 大 小 尺寸 表现 出 来 的 重要 低 
维特 征 , 并 重新 构造 反映 这 些 重要 特征 的 密度 估计 . 
例 10.8 (二 元 旋转 ) ”为 说 明 探 索性 投影 寻 踪 , 我 们 试图 重新 构造 一 些 二 元 数据 的 
密度 . 假设 W = (Wi, W2), 其 中 Wi ~ Gamma(4, 2), W2 ~ N(0,1) 且 Wi 和 Wo 独 
X. 那么 E{W} = (2,0), var{W} = I. 我 们 用 


R= —0.581 —0.814 
—0.814 0.581 


对 W 进行 旋转 生成 数据 X = RW. fx 表示 X 的 密度 , 这 是 我 们 要 试图 从 fx 

中 抽 得 的 n = 500 个 样本 点 去 估计 的 . 由 于 var{X} = RR" = 1, 故 白 化 变换 几乎 

只 是 平移 ( 除 理论 方差 协 方差 阵 和 样本 方差 协 方差 阵 存在 轻微 差别 外 ). 
白化 后 的 数据 , z1,… , zsoo, 在 图 10.9 左上 角 的 面板 中 画 出 . 从 图 中 可 看 出 有 


Ery 


0 = 
~ 0 2 -4 -2 0 2 
az, ága” 


图 10.9 例 10.8 中 前 两 个 投影 步 和 结构 移 除 步 , 见 文中 的 描述 
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潜在 的 gamma 结构 , 因为 在 该 图 右上 角 的 点 的 频率 突然 下 降 : Z AX RT Ww 道 
时 针 旋 转 大 约 135 度 . 

揭示 最 多 一 元 投影 结构 的 方向 Gil 用 图 10.9 左上 和 角 面 板 中 的 直线 画 出 . 显然 该 
方向 大 概 对 应 原始 gamma 分 布 的 坐标 . 图 10.9 左下 角 显 示 了 zi 值 投 影 到 & 上 
的 直方 图 , 有 点 非 正 态 分 布 的 样子 . 附 在 该 直方 图 上 的 曲线 对 af Z 用 Legendre 展 
开 策 略 得 到 的 是 一 元 密度 估计 . 该 例子 中 , Legendre 多 项 式 的 个 数 设 为 J+1 = 4. 

把 向 &i 方向 投影 所 揭示 的 结构 去 掉 得 到 新 的 工作 数据 值 , zn,… 209, 见 图 
10.9 右上 角 面 板 . 显示 最 多 非 正 态 结构 的 投影 方向 &z, 仍 用 直线 表示 . 右 下 角 的 面 
WERT 6G3 z0) 的 直方 图 及 相应 的 Legendre 密度 估计 . 

此 时 , 没 必要 再 进行 额外 的 投影 步 和 结构 移 除 步 了 : 工作 数据 几乎 是 多 元 正 态 
的 . 用 (10.71) 重新 构造 fz 的 估计 得 到 图 10.10 所 示 的 密度 估计 . 图 中 可 以 明显 看 
出 旋转 后 的 gamma 正 态 结构 , 其 中 较 厚 的 gamma 分 布 的 尾部 向 左 侧 延伸 而 陡峭 
的 尾部 在 右 侧 终止 . 应 用 的 最 后 步骤 是 用 X 的 密度 而 不 是 Z 的 密度 重新 描述 该 结 
果 . 口 


图 10.10 例 10.8 中 探索 性 投影 追踪 的 密度 估计 fz 
问 题 


10.1 Sanders 等 人 对 银河 系 外 物体 的 红外 发 射 及 其 他 特征 提供 了 一 个 全 面 的 数据 集 [478]. 

这 些 数据 可 从 本 书 的 主页 上 得 到 . $ X 表示 标 为 F12 的 变量 的 对 数 , 这 是 对 每 个 物体 

12 微米 波段 总 的 流量 测量 . 

(a) 分 别 用 UCV(h) 准则 、Silverman 的 大 拇指 法 则 、Sheather-Jones 方法 、Terrell 的 
极 大 光滑 原则 及 其 他 任何 你 想 用 的 方法 得 到 的 窗 宽 , 对 X 拟 合 一 个 正 态 核 密度 估 
计 . 对 这 些 数据 从 直观 上 评价 每 个 窗 宽 的 合适 性 . 

(b) 对 X 分 别 用 均匀 核 、 正 态 核 、 艾 氏 核 及 三 权 核 拟 合 核 密度 估计 , 且 每 个 都 用 与 正 
态 核 时 Sheather-Jones 窗 宽 等 价 的 窗 宽 - 对 拟 合 结果 加 以 评论 . 

(c) 对 X 像 (10.48) 那样 用 均匀 核 和 正 态 核 拟 合 最 近邻 密度 估计 . 接 下 来 用 正 态 核 并 
令 等 于 固定 窗 宽 估 计 的 Sheather-Jones WRI Fx (zi)2/2 的 几何 均值 , 对 X 
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10.2 


10.3 


10.4 


WE Abramson 自 适 应 估计 . 

(d) 如 果 对 数 样 条 密度 估计 的 代码 是 可 获得 的 , 请 用 这 种 方法 估计 X 的 密度 . 

(e) 令 fx 表示 用 Sheather-Jones 窗 宽 计算 的 X 的 正 态 核 密度 估计 . 注意 该 窗帘 和 
Silverman 的 大 拇指 法 则 给 出 窗 宽 的 比例 .。 把 数据 变 回 到 原来 的 尺度 ( 即 2 = 
exp{X])， 并 拟 合 正 态 核 密度 估计 fz, 其 中 窗 宽 等 于 按 以 前 比例 缩小 后 的 Silver- 
man 大 拇指 法 则 . (这 是 稳健 尺度 度量 远 好 于 样本 标准 差 的 一 个 例子 .) 然后 用 密度 
的 变量 变换 公式 把 fx 变 回 到 原来 的 尺度 , 并 在 0 到 8 之 间 的 区 域 上 比较 Z 的 两 
种 密度 估计 . 进一步 尝试 研究 密度 估计 与 非 线性 尺度 变换 之 间 的 关系 . 并 加 以 评论 . 

本 题 继续 使 用 银河 系 外 物体 的 红外 线 数据 及 问题 10.1 中 的 变量 X(12 微米 波段 流量 测 

车 的 对 数 ). 数据 集 也 包括 F100 数据 : 每 个 物体 100 微米 波段 总 的 流量 测量 . 用 Y 表 

示 该 变量 的 对 数 . 用 下 面 的 方法 对 X 和 Y 的 联合 密度 构造 二 元 密度 估计 

(a) 使 用 标准 二 元 正 态 核 , 其 中 窗 宽 矩 阵 为 ha. 描述 如 何 选择 h. 

O) 使 用 二 元 正 态 核 , 其 中 窗 宽 和 矩阵 H 由 Terrell 的 极 大 光滑 原则 给 出 . 找 一 个 常数 c 
使 窗 宽 矩 阵 cH 给 出 优良 的 密度 估计 . 

(c) 使 用 正 态 乘积 核 , 其 中 每 个 坐标 的 窗 宽 由 Sheather-Jones 方法 选择 

(0) 使 用 正 态 核 的 最 近邻 估计 (10.48). 撕 述 你 如 何 选择 k. 

(e) 使 用 带 有 正 态 乘积 核 的 Abramson 自 适应 估计 , 其 中 按照 例 10.7 的 方法 选择 窗帘 . 

由 等 式 (10.22) 出 发 , 当 K(z) = 9(z) = SPE mh, 按照 下 列 步骤 简化 UCV(h): 

(a) 证 明 


E 


1 Š Tz— Xi 
二 一 cH] Be 
UCV(h) = TARZ 2 / K ( A ) dz 


tae DE | (EG) (5%) 


i=l ffi 


2 = ue") 
一 一 一 K (ei 
Wm (二 
=A+B+C, 


其 中 A, B A C 分 别 表示 上 面 给 出 的 三 项 . 
(b) 证 明 A= =e. 
(c) 证 明 
b= eben {Ae -对 (10.73) 
2n(n = hvn 全 条 ane Sey ; 
(d) 通过 (10.23) 完成 证 明 . 
ERR 10.2 的 前 4 行 . 现 假设 f 是 乘积 核 估计 . 你 会 发 现 从 表达 式 MSEn(f(z)) = 
var{ f(a)} + (bias{f(z)})? 出 发 并 用 如 下 结果 是 很 有 帮助 的 ， 
mtr or \ [exp {-dertas}). 
a+r? ae) VD 人 
其 中 p(w; a, 6?) 表示 均值 为 a 方差 为 8? 的 一 元 正 态 密度 函数 . 


O(a; 4,07) O(a3¥,77) =o 人 (= 
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10.5 本 书 的 主页 上 有 多 方面 的 数据 , 它们 都 有 很 强 的 结构 . 具体 来 说 , 这 些 4 维 数 据 来 自 于 
一 个 混合 分 布 , 该 分 布 是 几乎 位 于 一 个 3 维 流 形 上 的 密度 和 一 个 填 满 4 维 空间 的 厚 尾 
分 布 的 混合 , 且 前 者 权重 较 低 , 后 者 权重 较 高 . 

(a) 估计 数据 的 最 小 正 态 一 元 投影 方向 . 用 一 系列 的 图 来 猜测 一 个 非 正 态 投影 方向 , 或 
根据 探索 性 投影 寻 踪 中 投影 步 描述 的 方法 . 

(b) 估计 在 (a) 中 找到 方向 的 投影 数据 的 一 元 密度 , 方法 不 限 . 

(c) 用 本 章 的 想法 通过 任何 有 价值 的 方式 估计 并 (或 ) 描述 这 些 数据 的 密度 . 讨论 所 遇 
到 的 困难 . 
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考虑 图 11.1 所 示 的 二 元 数据 . 如 果 需 要 的 话 , 直观 上 谁 都 可 以 画 一 条 光滑 的 
曲线 把 数据 拟 合 得 很 好 , 然而 多 数 人 可 能 发 现 要 想 确切 地 描述 如 何 做 到 这 一 点 却 非 
常 困 难 . 为 此 本 节 集 中 介绍 几 种 方法 , 并 称 之 为 散 点 光滑 法 . 


-3 -2 -1! 0 1 2 3 
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图 11.1 预测 -响应 数据 . 通过 这 些 数据 描 出 的 光滑 曲线 可 能 显示 出 多 个 峰值 和 四 点 


二 元 数据 有 效 的 光滑 方法 通常 比 高 维 问题 中 更 简单 , 因此 一 开始 我 们 只 考虑 n 
个 二 元 数据 点 (zi,yi),i = 1,… ,mn 的 情况 . 第 12 章 涵盖 多 元 数据 的 光滑 方法 . 

光滑 的 目标 对 预测 -响应 数据 与 对 一 般 的 二 元 数据 是 不 同 的 ， 对 预测 -响应 数 
据 , 假定 随机 响应 变量 Y 是 预测 变量 X 值 的 一 个 函数 (可 能 是 随机 的 )， 比 方 说 ， 
对 预测 -响应 数据 通常 假设 的 模型 是 Y; = s(zi) + ein 其 中 ei 是 零 均值 的 随机 噪声 ， 
s 是 一 个 光滑 函数 . 这 种 情况 下 , Y|z 的 条 件 分 布 描述 了 Y 如 何 依赖 于 X = z. 通 
过 该 数据 的 一 条 合理 的 光滑 曲线 要 与 预测 变量 观测 值 范围 内 Ylz 的 条 件 均值 联系 
起 来 . 

与 预测 -响应 数据 不 同 , 一 般 的 二 元 数据 有 这 样 的 特点 , 即 X 或 Y 都 不 会 明显 
地 作为 响应 变量 出 现 . 在 这 种 情况 下 , 总 结 (X,Y) 的 联合 分 布 比较 明智 . 一 个 能 抓 
EX MY 之 间 关 系 主要 方面 的 光滑 曲线 应 该 与 它们 联合 密度 的 峭 顶 相符 合 , 当然 
也 有 其 他 合理 的 选择 . 估计 这 种 关系 可 能 比 光滑 预测 -响应 数据 更 有 挑战 性 , 见 11.6 
节 和 12.2.1 节 . 

关于 光滑 技巧 的 详细 讨论 的 文献 包括 [86, 164, 268, 269, 273, 280, 484, 508, 544, 
553]. 
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11.1 ”预测 一 响应 数据 


现 假设 对 某 个 光滑 函数 s 有 E{Y|z} = s(x). 因为 预测 -响应 数据 的 光滑 通常 
集中 在 条 件 均值 函数 s 的 估计 上 , 因此 光滑 常 称 作 非 参 回归 . 

对 给 定 的 点 z, 假定 3(z) 是 s(z) 的 估计 . 那么 什么 估计 是 最 好 的 呢 ? 一 种 自 
然 的 方法 是 用 z 处 (估计 ) 的 均 方 误差 来 评价 > 处 a(x) 作为 s(z) 估计 的 质量 , 即 
MSE(8(x)) = E{[s(z) — s(z)]?}, 其 中 期 望 是 关于 响应 的 联合 分 布 取 的 . 通过 在 该 表 
达 式 的 平方 项 中 加 减 一 项 E{3(z)|z}, 就 可 直接 得 到 我 们 熟悉 的 结果 


MSE(s(z)) = (bias{3(z)})? + var{a(z)}, (11.1) 


其 中 bias{8(x)} = E{4(x)} — s(z). 

虽然 我 们 通过 在 平方 误差 损失 下 考虑 条 件 均值 的 估计 研究 光滑 方法 , 但 其 他 有 
些 观点 也 是 合理 的 . 例如 , 采用 绝对 误差 损失 漂移 将 会 注重 median{Y|z}. 因此 , 可 
把 光滑 更 一 般 地 看 成 是 描述 Ylz 分 布 的 中 心 如 何 随 z 变化 而 变化 的 一 种 尝试 , 这 
种 想法 类 似 于 考虑 是 什么 构成 分 布 中 心 的 . 

光滑 函数 3(z) 通常 不 仅 依赖 于 观测 数据 (zi,y;),i = 1,… ,m, 也 依赖 于 一 个 用 
户 指定 的 光滑 参数 和 , 选择 的 参数 值 用 来 控制 光滑 函数 的 总 体 表 现 . 因此 , 以 后 我 们 
MEIR ôa K MSEA(SA(z)). 

考虑 使 用 光滑 函数 8 在 新 的 一 点 z* 处 响应 的 预测 . 我 们 引入 MSEA(SA(z*)) 
来 评价 SA(z*) 作为 真实 条 件 均值 s(z*) = E{Y|X = z*} 的 估计 量 的 质量 . 现在 要 
评价 光滑 函数 在 X = z* 处 响应 预测 的 质量 , 我 们 采用 z* 处 的 均 方 预测 误差 , 即 


MSPE,(8(z*)) =E{(Y — 8,(c*))?|X = 2*} 
=var{Y|X = z*} + MSE, (âx (1*)). (11.2) 


除了 要 在 个 别 的 z* 处 有 好 的 预测 以 外 , 对 8, 还 有 更 多 的 要 求 ， 如 果 3、 是 
一 个 好 的 光滑 函数 , 那么 它 应 该 在 zx 的 范围 内 达到 MSPEA(sx(z)) 的 极限 . 对 观 
测 的 数据 集 , 3、 = (3、(z1),… ,S$、(zn)) 的 质量 好 的 全 局 度量 应 该 是 MSPE (ê) = 
i È MSPE、(5、(zi), 即 平均 均 方 预测 误差 . 对 光滑 函数 的 质量 也 有 一 些 其 他 好 的 
全 局 度量 , 但 多 数 情况 下 各 种 选择 在 某 种 意义 下 渐进 地 不 重要 了 , 即 它们 都 对 最 优 
光滑 给 出 等 价 的 渐进 指导 [272]. 

已 经 讨论 了 光滑 函数 表现 的 理论 度量 之 后 , 现在 我 们 把 焦点 转向 构造 好 表象 光 
滑 函数 的 实际 方法 . 对 预测 -响应 数据 来 说 , 很 难 违背 的 一 个 观念 就 是 , 光滑 函数 应 
该 根据 某 个 未 知 度量 , 如 条 件 均值 , 来 汇总 给 定 X; = zi 时 Yi 的 条 件 分 布 , 即便 没 
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有 明确 假定 模型 Y, = s(zi) + i. 实际 上 , 不 管 数据 的 类 型 如 何 , 几乎 所 有 的 光滑 函 
数 都 依赖 于 局 部 平均 化 的 概念 : z 附近 zi 相应 的 Y: 应 该 按照 某 种 方式 进行 平均 
以 搜集 z 处 光滑 函数 合适 值 的 信息 . 

一 般 的 局 部 平均 光滑 函数 可 写成 


8(x) = ave{Yilzi € N(z)}, (11.3) 


其 中 “ave” 为 某 个 广义 的 平均 函数 , N(x) 为 z 的 某 个 邻 域 . 选择 不 同 的 平均 函数 
(如 平均 、 加 权 平均 、 中 位 数 或 M- 估 计 ) 和 不 同 的 邻 域 (如 最 近 的 几 个 相 邻 点 或 某 
距离 内 的 所 有 点 ) 可 以 产生 不 同 的 光滑 函数 . 一 般 来 说 , N(x) 的 形式 可 能 随 x 而 
变化 , 从 而 在 数据 的 不 同 区 域 使 用 不 同 的 邻 域 大 小 或 形状 . 

邻 域 最 重要 的 特征 是 它 的 跨度 , 这 用 光滑 参数 A 表示 . 一 般 意 义 下 , 邻 域 的 跨 
度 度量 了 它 的 涵盖 性 ; 小 跨度 的 邻 域 有 很 强 的 局 部 性 , 只 包含 很 临近 的 点 ; 而 大 跨 
度 的 邻 域 包含 较 广 的 范围 有 多 种 方法 度量 邻 域 的 涵盖 性 , 包括 它 的 大 小 (点 的 个 
数 ), 跨度 (包含 样本 点 的 比例 ), 窗 宽 ( 邻 域 的 物理 长 度 或 体积 ) 及 一 些 以 后 要 讨论 
的 其 他 概念 . 我 们 用 和 表示 对 每 个 光滑 函数 究竟 哪个 概念 是 最 自然 的 . 

光滑 参数 控制 5、 的 波动 性 . 小 跨度 的 光滑 函数 往往 可 以 很 好 地 再 生 局 部 形态 ， 
但 从 较 远 的 数据 几乎 得 不 到 什么 信息 . 关于 局 部 响应 具有 有 用 信息 的 远 处 数据 被 忽 
略 的 光滑 函数 会 比 不 忽略 时 有 较 大 的 变异 性 . 

比较 来 说 , 当 作 局 部 预测 时 , 大 跨度 的 光滑 函数 从 远 处 数据 可 得 到 许多 信息 . 当 
这 些 数据 之 间 有 某 些 关联 时 就 引入 了 潜在 的 偏差 . 调整 可 控制 偏差 和 方差 之 间 
的 一 种 平衡 , 

下 面 我 们 介绍 构造 局 部 平均 光滑 函数 的 某 些 策略 . 本 章 集中 研究 预测 -响应 数 
据 的 光滑 方法 , 但 11.6 节 简 单 涉及 了 一 般 二 元 数据 的 光滑 问题 , 这 将 在 第 12 章 进 
一 步 考虑 . 
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一 类 重要 的 光滑 函数 是 线性 光滑 函数 . 对 这 种 光滑 函数 , 在 任意 点 z 的 预测 是 
响应 值 的 一 个 线性 组 合 . 线性 光滑 函数 比 非 线性 光滑 函数 计算 更 快 , 且 更 容易 分 析 . 

常常 只 在 观测 的 ri 点 上 考虑 光滑 函数 的 估计 就 足够 了 ， 对 一 个 预测 值 向 量 
T = (1,---,2n)", H Y = (Yi,--- Yn)? 表示 相应 响应 变量 的 向 量 , 并 定义 3 = 
(3(Z1),… ,5(Zn))T. 那么 对 元 素 不 依赖 于 Y 的 nx n 的 光滑 矩阵 S, 线性 光滑 函 
数 可 用 8 = SY 来 表示 . 下 面 介绍 多 种 线性 光滑 函数 . 


11.2.1 ” 常 跨度 移动 平均 
一 种 非常 简单 的 光滑 函数 是 取 个 邻近 点 的 样本 均值 : 
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a)= > Yk (11.4) 
{j: z4 EN(2:)} 
要 求 使 用 奇数 k, 并 定义 NV(zi) 作为 ri 本 身 、 预 测 值 小 于 z; 的 最 近 的 (k - 1)/2 
个 点 以 及 预测 值 大 于 zi 的 最 近 的 (k 1)/2 个 点 . Z N (i) 称 作对 称 最 近邻 , 而 光 
滑 函 数 常 称 作 移动 平均 . 
不 失 一 般 性 , 今后 假设 数据 对 已 按 zi 升序 排序 . 那么 常 跨度 移动 平均 光滑 函 
数 可 写作 


ŝk(zi) = mean 位 : max (i 一 a 1) <j < min (: + 与 + \. (11.5) 


为 了 作 图 或 预测 , 我 们 可 在 每 个 ri 处 计算 3 并 在 中 间 进 行 线性 内 插 . 注意 , 根据 i 
依次 进行 , 我 们 可 用 如 下 的 迭代 更 新 有 效 地 计算 wig 处 的 Sr: 


8x (@i+1) = 和 k(zi) 一 


wk- Yi 
G D/2 十 tiana, (11.6) 


这 避免 了 在 每 个 点 重新 计算 均值 . 类 似 的 更 新 对 预测 值 位 于 数据 边缘 的 点 也 成 立 . 

常 跨度 移动 平均 光滑 函数 是 一 种 线性 光滑 函数 .光滑 矩阵 S 的 中 间 几 行 都 形 
如 (0 … Of ++ £0 -+- 0). 多 数 光滑 问题 的 一 个 重点 是 如 何 计算 数据 边缘 附近 的 
ak(zi), 例如 , z1 的 左边 没有 (k 一 1)/2 MER. S 的 前 (k 一 1)/2 行 和 后 (k - 1)/2 
行 必须 进行 某 种 调整 . 三 种 可 能 选择 (例如 对 k= 5) 分 别 是 : 用 


1 
1/3 1/3 1⁄3 0 0 0 
S=| 1/5 1/5 1/5 1/5 1/5 
0 1/5 1/5 1/5 1/5 1/5 =- 


(11.7) 


M- 


来 收缩 对 称 近邻 ; 用 


if iff ie 0 a a 

1/4 1/4 1/4 1/4 0 0 
s=| 1/5 1/5 1/5 1/5 1/5 0 

0 1/5 1/5 1/5 1/5 1/5 = 


(11.8) 


"oooopoc 
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来 修剪 近邻 ; 或 者 只 在 循环 数据 情况 下 — 用 
1/5 1/5 1/5 0 0 0 >- 0 1/5 1/5 
1/5 1/5 1/5 1/5 0 0 0 >- 0 1/5 
S=| 1/5 1/5 1/5 1/5 1/5 0 0 0 =: 0 (11.9) 


0 1/5 1/5 1/5 1/5 1/5 0 0 >- 0 


HA BIL. 通常 首选 修剪 选择 , 这 在 (11.5) 中 就 已 暗含 了 . 由 于 k EE n 中 相 
当 小 的 一 部 分 , 因此 光滑 给 出 的 总 的 图 像 受 边缘 处 理 的 影响 并 不 大 , 但 不 管 这 件 事 
情 如 何 解释 , 读者 应 该 意识 到 在 数据 边缘 处 3 的 可 靠 性 已 经 降低 . 

例 11.1 (简单 数据 ) A 11.2 显示 了 本 章 开头 介绍 的 数据 的 常 跨度 移动 平均 光 
滑 ， 该 数据 用 我 们 讨论 过 的 多 种 方法 都 可 以 很 容易 地 光滑 好 . 这 些 数 据 是 来 自 模 
MY, = s(zi) +e 的 m = 200 个 等 间距 的 点 ,其 中 误差 项 是 零 均值 、 标 准 差 为 
1.5 的 独立 同 分 布 的 正 态 噪声 . 该 数据 可 从 本 书 的 主页 上 下 载 . 在 图 中 真实 的 关系 ， 
s(x) = z? sin{ (x + 3.4)/2}, 用 虚线 所 示 ; 估计 sk(z) 用 实 线 所 示 . At k = 13 我 们 使 
用 一 个 与 (11.8) 等 价 的 光滑 矩阵 . 从 表明 上 来 看 , 结果 不 太 理想 : 也 许 这 正 强 调 了 
当 用 手 画 一 条 光滑 曲线 时 不 管 人 们 采用 什么 方法 都 极其 复杂 . 口 
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图 11.2 大 = 13 时 常 跨度 移动 平均 光滑 函数 的 结果 (KR), 比较 于 真实 的 潜在 曲线 (虚线 ) 


1， 跨 度 的 影响 

常 跨度 移动 平均 光滑 函数 中 一 个 自然 的 光滑 参数 是 和 = k. 与 所 有 光滑 函数 一 
样 , 该 参数 控制 波动 性 , 此 处 是 通过 直接 控制 任何 邻 域 中 包含 的 数据 点 的 个 数 达 到 
的 . 对 排序 数据 和 邻 域 不 受 数 据 边缘 影响 的 内 点 ri, (11.5) 给 出 的 有 跨度 移动 平均 
光滑 函数 有 


1 He? a 
MSE, (8%(ai)) = E Coe > x) i (11.10) 


j=i-(k-1)/2 
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其 中 s(zi) = E{Y|X = zi}. 显然 这 可 以 重新 表示 为 
1 i+(k—1)/2 
MSEx(Sx(2i)) = (biasfak(zi}) + Ez DO var{¥|X = 25}, (11.11) 
j=i—(k—1)/2 
其 中 
1 计 (k—1)/2 
bias{ 3, (2i)} = s(zi) 一 天 s(x). (11.12) 
j=i-(k-1)/2 


为 理解 均 方 预测 误差 如 何 依赖 于 光滑 跨度 , 我 们 使 用 (11.11) 并 做 如 下 简化 的 假设 : 
对 所 有 zj € N(zi) 有 var{Y|X = zj} = o2. BA 


MSPEk(Sk(zi)) = var{Y |X = ai} 十 MSEk(Sk(zi)) 
=(1+1/k)o? + (bias{fsk(zi)})2 - (11.13) 


因此 , 随 着 邻 域 大 小 & 的 增加 , (11.13) 中 的 方差 项 将 会 减 小 , 但 是 偏差 项 将 会 明显 
增加 , 因为 s(zi) 不 太 可 能 与 远 处 j 的 s(z;) 类 似 . 同样 地 , WR k 减 小 , 那么 方差 
项 将 会 增加 , 但 偏差 项 通常 将 会 更 小 . 

例 11.2 (简单 数据 , 续 ) ”图 11.3 显示 了 大 如 何 影响 5. 图 中 ,大 = 3 导致 一 个 波 
动 过 大 的 结果 . 相反 , k= 43 导致 过 于 光滑 的 结果 , 但 存在 系统 偏差 . 偏差 的 产生 主 
要 是 因为 当 邻 域 太 大 时 , 邻 域 边缘 的 响应 值 并 不 能 代表 中 间 的 响应 值 . 这 往往 会 消 
蚀 掉 峰值 , 填充 掉 趾 点 并 在 预测 值 区 域 边缘 附近 把 趋势 抹 平 . 


a eT a E 
预测 变量 
图 11.3 大 = 3( 波 动 较 大 的 实 线 ) 和 k= 43( 较 光滑 的 实 线 ) 时 常 跨度 移动 
平均 光滑 函数 的 结果 . 潜在 的 真实 曲线 用 虚线 表示 


2. 线性 光滑 函数 的 跨度 选择 


显然 的 最 优选 择 必须 在 偏差 和 方差 之 间 找 一 个 平衡 . 对 小 k, 估计 的 曲线 是 
波动 的 , 但 太 忠 实 于 数据 . 对 大 k, 估计 的 曲线 是 光滑 的 , 但 某 些 区 域 偏差 过 大 . 对 
所 有 光滑 函数 , 光滑 参数 的 作用 都 是 控制 偏差 和 方差 之 间 的 一 种 权衡 . 
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MSPEx (8x) 的 表达 式 可 通过 对 所 有 zi 平均 (11.13) 式 的 值得 到 , 但 不 能 通过 
最 小 化 该 表达 式 来 选择 k, 因为 它 依赖 于 未 知 的 期 望 值 . 而 且 , 选择 对 观测 数据 最 优 
的 跨度 可 能 更 加 合理 , 而 不 是 对 可 能 观测 但 没 被 观测 到 的 数据 集 平均 最 优 的 跨度 . 
从 而 , 我 们 要 考虑 选择 最 小 化 如 下 残 差 均 方 误差 的 大 


RSS; (34)/n = Da ey (11.14) 
然而 ， 
E{RSS;(84)/n} = MISEEk(ak) — = SY cov{¥i, ŝk(z;)}- (11.15) 
ify 

对 常 跨度 移动 平均 来 说 , 对 内 点 z; 有 cov{Yi, 3k(z;)} = var{¥|X = zj}/k， 因 此 ， 
RSSk(sk)/m 是 MSPE; (êr) 的 一 个 下 偏 估 计量 . 
MEER Yi 和 34(zi) 的 相关 性 , 当 计 算 ri 处 的 光滑 值 时 可 以 忽略 掉 第 i 个 
点 . 该 过 程 称 作 交叉 验证 [521]; 这 只 用 来 评价 光滑 的 表现 , 而 不 用 作 评 价 光滑 本 身 
拟 合 的 好 坏 . 用 给 (zi) 表示 用 去 掉 第 i 个 数据 对 的 数据 集 拟 合 时 在 ri 处 的 光滑 

函数 值 . MSPE(34) 一 个 更 好 的 (实际 上 悲观 的 ) 估计 是 


CVRSSk (Sx)/n = iS (r: - a)’, (11.16) 
i=1 

其 中 CVRSS, (3x) 称 作 交 叉 验 证 残 差 平方 和 . 一 般 用 CVRSSk(sk) Xt k 作 图 . 

Bl 11.3 (简单 数据 , 续 ) ”图 11.4 对 光滑 例 11.1 介绍 的 数据 显示 了 CVRSS, (3%) 

Xi k 的 图 . 该 图 通常 对 小 的 上 由 于 方差 的 增加 而 使 CVRSSk(sk) 迅速 增加 ,对 大 

的 ,由 于 偏差 的 增加 而 使 CVRSS (ôr) 逐渐 增加 . 表现 最 好 的 区 域 位 于 曲线 最 低 

的 部 分 , 该 区 域 常常 很 宽 并 相当 平坦 . 本 例 中 , 比较 好 的 选择 位 于 11 和 23 之 间 ， 


CVRSS,(5,) 


10 20 30 40 50 


k 
图 11.4 WA 11.1 中 数据 用 常 跨度 移动 平均 光滑 函数 得 到 的 CVRSSk(ak) 对 k 的 图 
k 较 好 的 选择 大 概 位 于 11 和 23 之 间 . 该 范围 内 较 小 的 值 特别 有 利于 减少 偏差 ， 
而 较 大 的 值 将 会 得 到 更 光滑 的 拟 合 
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其 中 = 13 是 最 优 的 . KF k 最 小 化 CVRSSk(34) 最 终 得 到 的 光滑 函数 常常 有 点 
波动 过 大 . 在 交叉 验证 图 CVRSSk(sk) 表现 较 好 的 低谷 范围 内 选 一 个 较 大 的 大 i 
可 减少 光滑 不 足 的 发 生 . 本 例 中 , k= 13 值得 一 试 . 

去 掉 一 个 的 这 种 交叉 验证 方法 非常 耗费 时 间 ， PERRIN SEL, 
为 它 要 求 对 稍微 不 同 的 数据 集 分 别 计算 n 个 光滑 函数 . 有 两 种 捷径 值得 一 提 . 

第 一 , 考虑 具有 光滑 矩阵 S 的 线性 光滑 函数 . 当 从 数据 集中 忽略 第 ;个 数据 对 
时 , 在 zi 处 的 正确 拟 合 是 一 个 有 点 含糊 的 概念 , 即使 对 常 跨度 移动 平均 光滑 函数 ， 
因为 光滑 函数 有 代表 性 的 计算 只 是 在 数据 集 的 zx; 处 . 光滑 函数 是 否 应 该 在 与 删除 
的 z; 附近 的 两 个 数据 点 进行 拟 合 , 在 此 之 间 进 行 线性 内 插 , 或 试 试 其 他 的 一 些 方 
法 呢 ? 最 明显 的 一 种 方法 是 定义 


a? (ai) = 5 a ， (11.17) 
其 中 Sy 是 8 的 第 (i, 7) 元 . 换 句 话说 , 把 S 的 第 (i,j) 元 替换 为 零 并 把 行 中 其 余 
元 素 重 新 调整 刻度 以 使 行 和 为 1, 通过 这 种 方式 来 改变 S 的 第 i 行 . 这 种 情况 下 ， 
要 计算 CVRSSk(sk) 实际 上 就 没有 必要 删除 第 i 个 观测 并 对 每 个 i 重新 计算 光滑 
函数 值 . 根据 (11.17) 式 , 对 线性 光滑 函数 可 证 明 , (11.16) 式 可 重新 表达 为 


1 n = ŝ Ti 2 
CVRSSx(61)/n = = > (4) . (11.18) 


该 方法 与 线性 回归 中 计算 删除 的 残 差 时 著名 的 简便 算法 类 似 [412], 并 在 [280] 中 做 
了 进一步 的 证 实 ， 

第 二 , 我 们 希望 通过 生成 较 少 的 部 分 数据 集 , 每 个 数据 集 都 删除 较 多 的 数据 点 ， 
以 此 来 减少 交叉 验证 计算 的 次 数 . 例如 , 我 们 可 以 把 观测 数据 集 随 机 地 分 成 10 份 ， 
然后 每 次 丢掉 一 份 .那么 交叉 验证 的 残 差 平方 和 由 每 份 中 丢掉 的 点 的 残 差 进行 累 
积 . 该 方法 往往 会 高 估 真 实 的 预测 误差 ,而 只 丢 一 个 的 方法 偏差 较 小 但 更 不 稳定 ; 
一 般 建议 选用 5 或 10 部 分 的 交叉 验证 ( 即 分 成 5~10 份 )[281]. 

上 面 我 们 提 到 , 不 同 的 光滑 函数 用 不 同 的 光滑 参数 控制 波动 性 ， 到 目前 为 止 ， 
我 们 主要 关注 最 近 临 的 个 数 (k) 或 部 分 (k/n). 另 一 种 合适 的 选择 是 , N(x) = {x; : 
lzi- z| < h}, 全 用 下 的 安 人 天 h 作为 光滑 参数 . 也 有 方案 是 根据 与 z 的 接近 程 
度 给 数据 点 加 权 的 , 这 种 情况 下 光滑 参数 可 能 与 这 些 权 重 有 关 . 通常 在 数据 的 边界 
附近 , 邻 域 中 点 的 个 数 较 少 , 这 意味 着 任何 通过 交叉 验证 或 其 他 方法 给 出 的 固定 跨 
度 在 边界 附近 可 能 比 在 数据 的 中 部 拟 合 的 更 糟 . 跨度 也 允许 局 部 变动 . 对 这 种 邻 域 
参数 化 来 说 , 画 交叉 验证 残 差 平方 的 图 以 及 关于 偏差 -方差 之 间 的 平衡 做 决定 都 与 
前 面 讨论 的 方式 类 似 . 
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交叉 验证 跨度 选择 并 非 仅 限于 常 跨度 移动 平均 光滑 函数 ， 同 样 的 策略 对 本 章 
中 讨论 的 多 数 其 他 光滑 都 是 有 效 的 . 偏差 和 方差 之 间 的 权衡 在 统计 的 许多 领域 都 
是 一 个 基本 的 问题 : 前 面 在 密度 估计 中 出 现 过 (第 10 章 ), 当然 它 也 是 所 有 类 型 光 
滑 问题 的 一 个 主要 考虑 . 

有 多 种 其 他 方法 可 以 选择 散 点 光滑 的 跨度 ， 这 导致 偏差 -方差 间 不 同 的 权衡 
[269, 270, 273, 280, 281]. 一 种 直接 的 方法 就 是 把 CVRSS 用 另 一 个 准则 代替 , 如 
Cp, AIC BK BIC [281]. 其 他 两 个 流行 的 选择 是 广义 交叉 验证 和 插入 法 [271,475,508]. 
在 广义 交叉 验证 中 , (11.16) RERA 

GCVRSSk(ak) = Taia (11.19) 
其 中 tr{S} 表示 S 的 对 角 元 素 之 和 . 对 等 间距 的 ri, CVRSS 和 GCVRSS 给 出 的 结 
果 类 似 、 当 数据 不 是 等 间距 时 , 根据 GCVRSS 选择 的 跨度 受 对 拟 合 有 强 影 响 的 观 
测 的 影响 比较 小 . 尽管 广义 交叉 验证 有 这 种 潜在 的 优势 , 但 依靠 GCVRSS 常常 会 
导致 严重 的 光滑 不 足 ， 插 入 法 一 般 对 期 望 的 均 方 预测 误差 或 某 个 其 他 拟 合 准则 得 
出 一 个 表达 式 , 结果 发 现 其 理论 最 小 值 依赖 于 光滑 的 类 型 、 真 实 曲线 的 波动 性 以 及 
Yje 的 条 件 方差. 通过 使 用 非 正式 选择 的 跨度 (或 通过 交叉 验证 ) 完成 初始 的 光滑 . 
然后 用 该 光滑 来 估计 最 优 跨度 表达 式 中 的 未 知 量 并 在 最 终 的 光滑 中 使 用 该 结果 . 

选择 一 种 跨度 选择 方法 使 产生 的 图 形 能 在 肉眼 看 上 去 最 舒服 , 这 是 非常 诱 人 
的 . 想法 很 好 , 但 预先 值得 承认 的 是 在 描述 一 而 不 是 推断 一 统计 中 散 点 图 光滑 常 
常 是 一 种 练习 . 因此 从 试 错 法 或 简单 的 CVRSS 图 选择 你 最 喜欢 的 跨度 , 其 合理 性 
与 随机 支持 任何 一 种 技术 方法 差不多 .由 于 交叉 验证 方法 选择 的 跨度 随 观测 的 随 
机 数据 集 而 变化 , 有 时 还 会 光滑 不 足 , 因此 对 使 用 者 来 说 , 根据 亲自 分 析 和 实践 经 
验 来 发 展 自己 的 专长 很 重要 . 

11.2.2 ”移动 直线 和 移动 多 项 式 


对 任何 合理 的 k, 常 跨度 移动 平均 光滑 函数 在 直观 上 都 表现 出 令 人 讨厌 的 波动 
性 . 同时 在 边界 处 可 能 有 很 强 的 偏差, 因为 它 不 能 识别 数据 的 局 部 趋势 . 移动 直线 
光滑 函数 可 以 同时 减轻 这 两 个 问题 的 影响 . 

考虑 对 N(zi) 中 上 大 个 数据 点 拟 合 一 个 线性 回归 模型 . 那么 在 z 处 的 最 小 二 乘 
线性 回归 预测 为 


4i(z) = Y; + Bile -%), (11.20) 

其 中 Y,, 2; 和 Â 分 别 为 N(zi) 中 数据 的 平均 响应 、 平均 预测 变量 值 和 估计 的 回归 
直线 斜率 . zx; 处 的 移动 直线 光滑 为 sk(zi) = Li(zi)- 

令 X: = (1 zi), 其 中 1 为 全 1 列 且 zi 为 N(zi) 中 预测 数据 的 列 向 量 , 并 

AY: 为 响应 数据 相应 的 列 向 量 . 注意 到 , ki(zi) 一 因此 在 z; 处 的 光滑 一 可 通过 
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Hy = Xi( XTX) XT 的 一 行 乘 以 Y; 而 得 到 GHB H: 为 第 i HTH). 
因此 该 光滑 函数 是 线性 的 , 其 带 状 光 滑 矩 阵 5 的 非 零 元 来 自 于 每 个 五; 适当 的 行 . 
直接 从 S 计算 光滑 函数 不 是 非常 有 效 . 对 按 zi 排序 的 数据 , 较 快 的 方法 是 依次 更 
新 回归 的 充分 统计 量 , 这 类 似 于 对 移动 平均 讨论 的 方法 . 

例 11.4 (简单 数据 , 续 ) ”图 11.5 显示 了 例 11.1 中 引入 数据 的 移动 直线 光滑 函数 ， 
其 中 交叉 验证 选择 的 跨度 = 23. 边界 影响 比较 小 , 而 且 光 滑 函数 比 常 跨度 移动 平 
均 光 滑 有 较 轻 的 锯齿 状 . 由 于 真实 曲线 往往 可 通过 直线 很 好 地 近似 , 即使 在 较 宽 的 
邻 域内 , 因此 k 可 以 从 常 跨度 移动 平均 光滑 的 最 优 值 适当 加 大 . 这 样 既 降低 了 方差 
也 没有 严重 增加 偏差. o 


3 2 -1 +0 1 2 3 
预测 变量 
图 11.5 k= 23 的 移动 直线 光滑 曲线 ( 实 线 ) 及 潜在 的 真实 曲线 (虚线 ) 


讨论 中 并 不 把 局 部 拟 合 限制 为 简单 的 线性 回归 . 令 sk(zi) 为 N(zi) 中 数据 的 
最 小 二 乘 多 项 式 回归 拟 合 在 ri 处 的 值 , 这 样 可 以 得 到 移动 多 项 式 光滑 函数 . 这 种 
光滑 函数 有 时 也 称 作 局 部 回归 光滑 函数 ( 见 11.2.4 节 ). 奇数 阶 的 多 项 式 比较 受 欢迎 
[168,508]. 由 于 光滑 函数 大 致 是 局 部 线性 的 , 因此 高 阶 局 部 多 项 式 回 归 常 常 并 不 优 
于 简单 的 线性 拟 合 , 除非 真实 曲线 有 非常 剧烈 的 摆动 . 


11.2.3” 核 光滑 函数 


就 目前 为 止 提出 的 光滑 函数 而 言 , 每 当 邻 域内 成 员 发 生变 化 时 , 拟 合 函数 都 有 
不 连续 的 变化 . 因此 它们 往往 在 统计 上 拟 合 得 很 好 , 但 直观 上 表现 得 过 于 敏感 或 出 
现 令 人 讨厌 的 波动 . 

增加 光滑 性 的 一 种 方法 是 重新 定义 邻 域 , 使 得 各 点 只 是 逐渐 增加 或 减少 其 中 
的 成 员 数 ， 令 K 是 以 0 为 中 心 的 对 称 核 . 核 函数 本 质 上 是 一 个 权 函 数 一 这 
种 情况 下 核 函数 对 邻 域 成 员 加 权 .， 一 种 合理 的 核 选择 为 标准 正 态 密度 , K(z) = 
Ja exp {—2?/2}. 然后 令 


部 (Z) = DF 一 一 ， (11.21) 
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其 中 光滑 参数 h 称 作 窗 宽 . 注意 到 对 许多 常用 核 函 数 如 正 态 核 , 所 有 的 数据 点 都 用 
来 计算 每 点 的 光滑 值 , 只 是 很 远 的 数据 点 权重 很 小 而 已 . 临近 性 使 一 个 数据 点 对 局 
部 拟 合 的 影响 有 所 增加 ; 在 这 种 意义 下 , 局 部 平均 的 概念 依然 存在 ， 因为 在 光滑 范 
围 内 数据 点 的 权重 变化 较 小 , 所 以 大 窗 宽 得 到 的 结果 非常 光滑 . 而 小 窗 宽 保 证 临近 
点 更 强大 的 优势 , 因此 产生 较 多 的 波动 . 

光滑 核 的 选择 远 不 如 窗 宽 的 选择 重要 . 不 同 的 核 函 形状 往往 会 产生 相似 的 光滑 
函数 . 尽管 核 函数 不 一 定 是 密度 函数 , 但 实际 中 一 般 最 好 还 是 选择 光滑 、 对 称 、 尾 
部 连续 地 趋向 于 零 的 非 负 函数 . 因此 没什么 理由 在 正 态 核 以 外 去 寻找 , 尽管 很 多 近 
似 观点 支持 更 多 的 奇异 选择 . 

核 光 滑 显然 是 线性 光滑 .然而 光滑 的 计算 不 能 像 以 前 有 效 的 方法 那样 序 贯 地 
更 新 , 因为 每 当 z 变化 时 所 有 点 的 权重 就 发 生变 化 . 在 等 距 数据 这 一 特殊 情况 下 ， 
快速 Fourier 变换 方法 是 很 有 帮助 的 [267, 505]. 关于 核 光滑 更 深入 的 背景 请 参考 
文献 [484, 492, 508, 553). 

例 11.5 (简单 数据 , 续 ) ”图 11.6 显示 了 例 11.1 中 数据 的 核 光滑 , 其 中 使 用 正 态 
核 及 交叉 验证 得 到 的 h = 0.16. 由 于 进出 邻 域 是 逐步 的 , 故 结果 表现 出 圆滑 的 特点 . 
然而 注意 到 在 边界 处 核 光滑 并 没有 去 除 系统 偏差 , 移动 直线 光滑 也 是 如 此 . 口 


F erher ye 
预测 变量 
图 11.6 ”使 用 由 交叉 验证 得 到 h = 0.16 的 正 态 核 的 核 光滑 曲线 ( 实 线 ) 
及 潜在 的 真实 曲线 (虚线 ) 


11.2.4 ”局 部 回归 光滑 
移动 多 项 式 光 滑 和 核 光 滑 有 很 多 重要 的 联系 [10,268,508]. 假设 数据 来 源 于 一 
个 随机 设计 , 因此 它们 是 来 自 模型 (Xi, Y:) ~ iid. f(z,y) 的 一 组 随机 样本 (JEBE 
机 的 设计 将 预先 给 定 z: 值 ). 我 们 记 
s(x) = E{Y|z} = futo w= fit Ien) dy, (11.22) 


其 中 边际 地 X ~ f(z). 用 第 10 章 中 介绍 的 核 密度 估计 方法 (及 估计 f(z,y) 的 乘积 
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核 ), 对 合适 的 核 Ke 及 Ky 和 相应 的 窗 宽 hs 及 hy, 我 们 可 以 估计 
f(z,y) = =< iy vk. (Fz x) Ky 人 T) (11.23) 


及 


flz) = E Èk (证 :). (11.24) 


通过 在 (11.22) 式 中 替换 f(x,y) 及 f(x) 可 得 到 s(x) 的 Nadaraya-Watson 估计 量 
[406,556], 即 


K, (3% 2—-X, ) 
Y; S KEX 
nEs > REA 
注意 到 这 与 核 交 滑 的 形式 是 一 致 的 【 见 (121) 38. 
容易 证 明 , Nadaraya-Watson 估计 量 关 于 Bo 最 小 化 了 
-enzxe (5). (11.26) 


i=l 


(11.25) 


这 是 用 常数 来 局 部 近似 s(z) 的 最 小 二 乘 问题 . 很 自然 地 , 该 局 部 常数 模型 也 可 用 局 
部 高 阶 多 项 式 模型 代替 . 根据 某 核 函 数 设置 的 权重 进行 加 权 回归 来 拟 合 局 部 多 项 式 
就 得 到 局 部 加 权 回 归 光 滑 , 也 简称 为 局 部 回归 光滑 [100,168,553]. p 阶 局 部 多 项 式 回 
归 光 滑 函数 最 小 化 加 权 的 最 小 二 乘 准则 


PBB Be PKs (75%), an 


i=l 


可 用 每 个 z 处 的 加 权 多 项 式 回归 去 拟 合 , 其 中 权重 根据 与 x 的 接近 程度 由 核 函 
数 K。 决定 . 这 仍然 是 一 个 线性 光滑 函数 , 其 中 光滑 矩阵 包括 每 个 加 权 多 项 式 回 归 
使 用 的 帽子 矩阵 中 的 一 行 . 

最 小 二 乘 准则 也 可 由 其 他 选择 来 代替 . 见 11.4.1 节 关于 该 技巧 的 推广 , 其 依赖 
于 稳健 拟 合 方法 . 
11.2.5“ 样 条 光滑 


也 许 你 已 发 现 , 到 目前 为 止 本 章 给 出 的 光滑 曲线 从 视觉 上 有 点 不 太 令 人 满意 ， 
因为 它们 波动 得 比 直接 用 手 画 出 来 得 还 厉害 . 它们 表现 出 小 尺度 的 变异 , 而 肉眼 很 
容易 把 这 种 变异 归结 为 随机 噪声 而 不 是 信号 . 那么 光滑 样 条 可 能 更 适合 你 的 口味 . 

假设 数据 按照 预测 变量 的 升序 排列 , 从 而 zi 是 最 小 的 预测 变量 值 , cy 是 最 大 
的 预测 变量 值 . 定义 


= Eo — ŝ(z:))? + A av(z)2dz， (11.28) 
i=1 zı 
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其 中 P(x) 为 3(z) 的 二 阶 导数 . 求 和 算是 对 拟 合 不 足 的 惩罚 , 而 积分 是 对 波动 性 的 
EM. 参数 和 控制 这 两 个 惩罚 的 相对 权重 . 

给 定 X 对 所 有 二 次 可 微 函 数 3 最 小 化 Q、(5), 这 是 变 分 法 的 一 种 应 用 . 结果 是 
三 次 光滑 样 条 sx(z). 该 函数 在 每 个 区 间 [zi,zi+il(Gi = 1,… ,n 一 1) 上 都 是 三 次 多 项 
R, 且 这 些 多 项 式 在 每 个 ri 处 二 次 连续 可 微 地 逐条 粘 在 一 起 . 尽管 这 在 实际 中 通 
常 并 不 可 取 , 但 光滑 样 条 也 可 定义 在 数据 边界 以 外 的 区 域 . 这 种 情况 下 , 光滑 函数 
的 外 插 部 分 是 线性 的 . 

结果 证 明 三 次 样 条 是 线性 光滑 函数 , 故 3、 = SY. 文献 [280] 清楚 地 给 出 该 结 
果 , 而 [124, 506] 中 包含 了 有 效 的 计算 方法 . 其 他 关于 光滑 样 条 有 用 的 参考 文献 包 
括 [143, 164, 245, 551]. 

S 的 第 i 行 包括 权重 Si1,… Sin, 图 11.8 描述 了 它们 与 zi 之 间 的 关系 (在 
11.3 节 讨 论 ). 这 种 权重 类 似 于 核 函 数 并 不 总 取 正 值 的 核 光 滑 , 但 这 种 情况 下 当 以 不 
同 点 为 中 心 时 核 函 数 不 会 保持 同一 形状 . 

例 11.6 (简单 数据 , 续 ) 11.7 显示 了 对 例 11.1 中 的 数据 使 用 交叉 验证 得 到 的 
入 = 0.066 时 的 样 条 光滑 . 该 结果 中 的 曲线 与 直接 用 手 画 出 的 非常 相似 . 口 
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图 11.7 ”使 用 由 交叉 验证 选 得 的 和 = 0.066 的 三 次 光滑 样 条 

R (KR) 及 潜在 的 真实 曲线 (虚线 ) 


惩罚 的 选择 

光滑 样 条 依赖 于 光滑 参数 , 该 参数 和 邻 域 大 小 的 关系 不 像 以 前 讨论 过 的 光滑 
函数 那样 直接 . 我 们 已 经 注意 到 ,和 控制 着 偏差 -方差 的 折 中 . 当 和 一 co 时 , 8 趋 
向 于 最 小 而 成 直线 , 当 和 = 0 时 , sx 为 只 把 数据 点 连接 起 来 的 内 插 样 条 . 
由 于 光滑 样 条 是 线性 光滑 函数 , 因此 在 11.2.1 节 讨 论 的 跨度 选择 方法 仍然 适 
用 . 通过 (11.18) 计算 CVRSS)(8)) 需要 求 Siu, 这 可 以 通过 [424] 中 的 方法 有 效 地 
计算 出 来 . 计算 GCVRSS、(3,) 需要 求 tr{5}, 这 也 可 以 有 效 地 计算 出 来 [125]. 
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11.3 ”线性 光滑 函数 的 比较 


尽管 到 目前 为 止 描述 的 光滑 函数 看 起 来 不 太 相同 , 但 它们 都 依赖 于 局 部 平均 原 
则 . 每 个 拟 合 都 依赖 于 一 个 光滑 矩阵 S, 其 行 确定 在 响应 值 局 部 平均 中 使 用 的 权重 . 
对 不 同 光滑 函数 比较 S 有 代表 性 的 行 是 理解 不 同 技巧 间 区 别 的 有 用 的 方式 . 

当然 , E S 有 代表 性 的 行 中 的 权重 依赖 于 光滑 参数 . 一 般 情 况 下 , 与 足够 光滑 
相应 的 和 值 使 得 5 的 行 中 权重 分 配 得 比较 分 散 , 而 不 是 只 在 少数 几 个 元 素 上 集中 
较 高 的 权重 . 因此 要 想 进 行 公平 的 比较 , 有 必要 在 不 同 技巧 使 用 的 各 种 光滑 参数 间 
找 一 种 共同 的 联系 . 比较 的 共同 基础 是 光滑 的 等 价 自由 度数 , 对 线性 光滑 函数 最 简 
单 地 可 定义 其 为 df = tr{S}. 几 种 其 他 的 定义 及 对 非 线性 光滑 函数 的 推广 见 [280]. 

对 固定 的 自由 度 来 说 , S 行 中 的 元 素 为 间距 zx; 及 其 对 数据 边界 接近 程度 的 函 
数 . 如 果 把 5 行 中 权重 对 预测 变量 值 作 图 , 我 们 可 把 该 结果 看 成 是 等 价 核 , 其 权重 
与 核 光滑 中 明确 使 用 的 权重 是 类 似 的 . 图 11.8 对 具有 7 个 自由 度 的 各 种 光滑 函数 
比较 了 等 价 核 . 显示 的 核 是 针对 105 个 排序 的 预测 变量 值 中 的 第 36 个 , 其 中 有 35 
个 等 距 地 分 布 在 左边 , 有 69 个 以 两 倍 的 密度 等 距 地 分 布 在 右边 . 注意 到 这 些 核 可 
能 是 偏 斜 的 , 这 依赖 于 zi 的 间距 . 而 且 核 不 必 处 处 为 正 . 图 11.8 中 , 光滑 样 条 的 等 
价 核 在 某 些 区 域 就 赋予 了 负 的 权重 . 尽管 没 在 图 中 显示 , 但 核 的 形状 和 数据 边界 附 
近 的 点 明显 不 同 . 对 这 种 点 一 般 接近 边界 时 权重 增加 , 而 远离 边界 时 权重 下 降 . 


——— CSRM 


图 11.8 tr{S} = 7 的 5 种 不 同 线性 光滑 方法 的 等 价 核 . 这 些 方法 是 : MARL AY ES AES 
动 平均 (CSRM)、 对 称 邻 域 的 移动 直线 (RL)、 局 部 加 权 回归 (LWR)、 高 斯 核 光滑 
(K) 及 三 次 光滑 样 条 (SS). 内 点 (用 垂直 线 表 示 ) 的 光滑 权 和 S 的 第 36 行 对 应 . 
所 有 的 105 个 zi 值 在 水 平 轴 上 用 短 划 线 表 示 : 它们 在 两 边 等 距 分 布 , 但 右边 的 密 
度 是 左边 的 两 倍 


11.4 ” 非 线 性 光滑 函数 
非 线性 光滑 函数 计算 起 来 要 慢 得 多 , 而 且 一 般 情况 下 它们 比 简单 方法 并 没有 多 
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大 改进 . 但 是 较 简单 的 方法 对 某 些 类 型 的 数据 表现 很 差 . 在 普通 的 光滑 中 异常 值 会 
引入 大 量 的 噪声 , 而 loess 光 滑 对 异常 值 的 稳健 性 有 所 改进 . 我 们 也 研究 了 超 光滑 ， 
它 允 许 光滑 跨度 发 生变 化 来 最 好 地 满足 光滑 的 局 部 需要 . 当 var{Y|z} BE > 变化 时 
这 种 光滑 也 很 有 用 . 


11.4.1 Loess 


loess( 局 部 加 权 散 点 光滑 的 简写 ) 光滑 是 广泛 使 用 的 一 种 具有 良好 稳健 性 质 的 
方法 [98,99]. 本 质 上 这 是 一 种 加 权 移动 直线 光滑 , 除非 每 条 局 部 直线 都 用 稳健 方法 
而 不 用 最 小 二 乘 去 拟 合 . 结果 光滑 是 非 线性 的 . 

Loess 是 迭代 拟 合 的 ; 令 上 表示 和 迭代 次 数 . 从 t = 0 开始 , 我 们 令 dk (xi) 表示 
zi 到 其 第 个 近邻 的 距离 , HP kE k/n) 为 光滑 参数 .点 z; 附近 局 部 加 权 使 用 


的 核 是 
K:(z)= K (=) : (11.29) 
其 中 
K(z) = { =P, zal Sh (11.30) 
为 六 次 的 核 . 
在 第 t 步 和 迭代 中 通过 最 小 化 加 权 平 方 和 


EY - (02. + B25)? Kaas) (11.31) 
j=l 
可 得 到 第 i 个 点 局 部 加 权 回归 的 估计 参数 . 我 们 把 这 些 估计 记 为 AO, 其 中 m= 0,1 
且 i = 1,… ,n. 建议 用 线性 一 而 不 是 多 项 式 一 回归 , 但 到 多 项 式 的 推广 要 求 对 
(11.31) 式 直 接 变化 就 行 .局 部 回归 得 到 的 响应 变量 拟 合 值 为 YO = AO + Ax. 
此 时 步 迭代 结束 
FEE FRR, 根据 残 差 大 小 把 观测 赋 以 新 的 权重 , 目的 是 使 显然 的 异常 
值 权重 下 降 . 如 果 eP =Y 9, 那么 定义 稳健 权重 为 


a 


(t+1) 一 i 
nO) = B (i) $ (11.32) 


6 x medianle; 


中 B(z) 为 如 下 定义 的 双 权重 核 


sa- 当 |z| < 1， 


d 否则 . (11.33) 
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把 (11.31) 中 的 权 Ki(z;) BH oY Klr) 就 得 到 新 的 局 部 加 权 拟 合 . 对 每 个 i 
AERA TTR VD. 默认 情况 下 , t = 3 以 后 过 程 终 止 [98,99]. 

例 11.7 (简单 数据 , 续 ) ”图 11.9 显示 了 例 11.1 中 的 数据 的 loess 光滑 , 其 中 大 = 30 
由 交叉 验证 得 到 . 结果 和 移动 直线 光滑 非常 相似 . 
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图 11.9 使 用 交叉 验证 得 到 的 k= 30 的 loess 光滑 曲线 ( 实 线 ) 及 潜在 的 真实 曲线 (虚线 ) 


图 11.10 显示 了 异常 值 的 影响 . 每 个 面板 中 的 虚线 表示 最 初 的 loess 和 移动 直 
线 光滑 ; 实 线 表 示 在 (1, -8) 的 三 个 额外 数据 点 插入 数据 集 后 的 结果 . 每 个 光滑 的 
跨度 保持 不 变 . Loess 对 异常 值 非常 稳健 以 至 于 两 条 曲线 几乎 重合 了 . 移动 直线 光 
滑 对 异常 值 表 现 得 比较 敏感 . 口 
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图 11.10 ”使 用 k= 23 的 移动 直线 光滑 曲线 ( 左 ) 及 使 用 k = 30 的 loess 
光滑 曲线 ( 右 ). 每 个 面板 中 , 虚线 是 原始 数据 的 光滑 , 实 线 是 在 
数据 集中 插入 (1, -8) 处 三 个 新 的 异常 点 后 的 光滑 


11.4.2” 超 光滑 


所 有 以 前 的 方法 都 采用 固定 跨度 . 然而 有 的 情况 采取 变 跨度 可 能 更 合适 . 
例 11.8 (困难 数据 ) ”考虑 图 11.11 所 示 的 曲线 和 数据 . 这 些 数据 可 从 本 书 主页 上 
下 载 . 假设 这 些 数据 真实 的 条 件 均值 函数 是 图 中 所 示 的 曲线 , 因此 光滑 的 目标 是 用 
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观测 的 数据 估计 该 曲线 . 曲线 在 图 形 的 右边 波动 厉害 , 但 这 些 波动 可 通过 适当 小 跨 
度 的 光滑 比较 好 地 识别 出 来 , 因为 数据 的 变异 性 非常 小 . 在 左边 , 曲线 非常 光滑 , 但 
数据 的 方差 大 得 多 ， 从 而 在 该 区 域 需要 大 跨度 来 充分 地 光滑 受 干 扰 的 数据 .因此 
在 一 个 区 域 需要 小 跨度 来 最 小 化 偏差, 而 在 另 一 区 域 需要 大 跨度 来 控制 方差 . 超 光 
滑 [180,183] 旨 在 解决 这 种 问题 . a 
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图 11.11 ”这 些 具 有 非常 数 方差 且 波 动 的 频率 和 振幅 都 在 变化 的 二 元 数据 用 多 数 固定 
跨度 光滑 将 拟 合 得 非常 粳 糕 . 真实 的 E{Y|z} 用 实 线 表示 


超 光滑 方法 首先 用 mm 个 不 同 的 跨度 , 记 为 hi,- ,hm, 计算 m 个 不 同 的 光滑 ， 
WA 所 (7Z),… ,sm(z). 对 m = 3 建议 用 跨度 hi = 0.05m hz = 0.2n, hg = 0.5n. 每 
个 光滑 应 该 在 数据 的 整个 范围 上 计算 . 为 简单 起 见 , 用 移动 直线 光滑 生成 5j(z),7 = 
1,2,3. 图 11.12 显示 了 这 三 个 光滑 . 
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图 11.12 ” 超 光 滑 使 用 的 三 个 初始 的 固定 窗 宽 光 滑 . 窗 宽 分 别 是 0.05n( 虚 线 ), 0.2n( 点 线 ) 
和 0.5n( 实 线 ). 数据 点 的 颜色 减弱 以 使 光滑 看 得 更 清楚 


接 下 来, 定义 p(hj,z) 为 第 j 个 光滑 在 点 x 处 表现 的 度量 , 7 = 1,… ,m. 理想 
情况 下 , 我 们 想 根 据 {9(Y — 8P (EDX = zt} 来 评价 在 点 2, 的 表现 , 其 中 9 是 
惩罚 大 偏差 的 对 称 函数 , sf(z;) BAER x; 的 交叉 验证 数据 集 估计 的 在 ni 的 第 
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j 个 光滑 . 当然 该 期 望 值 是 未 知 的 , 所 以 根据 局 部 平均 的 范例 , 我 们 

Dhj, zi) = &* (gl; — P(e) (11.34) 
估计 它 , 其 中 5* 为 某 固定 跨度 光滑 . 为 实施 [180] 中 的 建议 , > s = 8 H g(z) = |z|. 
图 11.13 对 3 种 不 同 的 光滑 给 出 了 光滑 的 绝对 交叉 验证 残 差 |Y -50(zi)|. 图 中 的 
曲线 代表 5(hj,zi),j = 1,2,3. 每 个 光滑 中 使 用 的 数据 分 别 来 自 于 跨度 为 0.05n( 虚 


线 ), 0.2n( 点 线 ) 和 0.5n( 实 线 ) 的 光滑 的 残 差 , 但 每 个 绝对 残 差 集 用 0.2n 的 跨度 进 
行 光滑 以 生成 图 中 所 示 的 曲线 . 
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图 11.13 ”总 hzi), j = 1( 点 线 ), 2( 虚 线 ) 和 3( 实 线 ). 
对 每 个 j, 曲线 是 绝对 交叉 验证 残 差 的 光滑 


在 每 个 ri, 可 用 (hj, xi) (G = 1,2,3) 来 评价 3 个 光滑 的 表现 . 用 hi 表示 ri 处 
这 些 跨度 中 最 好 的 一 个 , 即 hi, hz, hs 中 给 出 最 小 (hj, zi) 的 某 个 特定 的 跨度 . 图 
11.14 对 我 们 的 例子 画 出 了 Ai 对 zi 的 图 . 最 好 的 跨度 变化 剧烈 , 即使 是 对 临近 的 
zi 因此 接 下 来 图 11.14 中 的 数据 通过 固定 跨度 光滑 进行 过 滤 来 估计 作为 z 函数 的 
最 优 跨度 . 用 h(a) 表示 该 光滑 . 图 11.14 也 画 出 了 A(z). 
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预测 变量 
图 11.14 ”作为 z 函数 的 最 优 跨度 的 超 光滑 估计 . 点 对 应 于 (zi, hi). 
这 些 点 的 光滑 , 即 A(x), 用 曲线 表示 


现在 对 任何 给 定 的 z 我 们 有 原始 数据 和 最 优 跨度 的 概念 可 用 : 即 Ale). 剩 下 
的 就 是 建立 最 终 总 的 光滑 ， 在 此 可 能 用 到 的 几 种 策略 中 ，[180] 推荐 设 3(zi) 等 于 
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Sno (zi) 和 Speco, oe) 间 的 线性 内 插 , 其 中 在 试 过 的 m 个 固定 跨度 中 , no (e) 是 
小 于 (zi) 的 最 大 跨度 , E h+ (zi) 是 大 于 Àl) 的 最 小 跨度 . 因此 


hzi) — h- (zi) 。 ht (zi) — h(xi) 。 
(zi = ee) + ejay toot (11.35) 


图 11.15 显示 了 最 终结 果 . 超 光 渭 根据 数据 的 局 部 变异 明智 地 调整 跨度 . 比较 
来 看 , 对 由 交叉 验证 选择 的 固定 A, 图 中 所 示 的 样 条 光滑 在 左边 光滑 不 足 而 在 右边 
过 度 光 滑 . 
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图 11.15 GHEY (KR). 同时 也 给 出 样 条 光滑 拟 合 (A 由 交叉 验证 选择 )( 点 线 ) 


尽管 超 光滑 是 一 种 非 线性 光滑 , 但 与 多 数 其 他 非 线性 光滑 包括 loess 相 比 , 速 
度 还 是 非常 快 的 . 


11.5 置 A # 


对 光滑 产生 可 靠 的 置信 带 并 不 是 很 直接 . 直观 上 , 期 望 的 图 像 要 能 描述 从 如 我 
们 观测 到 的 数据 本 身 好 像 可 能 得 到 的 那 种 光滑 曲线 的 范围 和 变化 . bootstrap 方法 
(第 9 章 ) 给 出 一 种 不 用 参数 假设 的 方法 , 但 它 并 没有 明确 说 明 哪 种 区 域 应 该 作 图 . 

首先 考虑 逐 点 置信 带 的 概念 . 对 残 差 进行 bootstrap 抽样 的 过 程 如 下 . + e 表 
示 残 差 向 量 (因此 对 线性 光滑 来 说 e = (I 一 S)Y). 从 e 中 有 放 回 地 抽取 元 素 , 得 到 
bootstrap 的 残 差 e*. 把 它们 加 到 拟 合 值 上 得 到 bootstrap MIM Y* =Y +e. 在 
a 上 光滑 Y* 得 到 bootstrap 的 拟 合 光滑 $. 重新 开始 并 多 次 重复 bootstrap. 然 
后 对 数据 集中 的 每 个 z, 通过 在 该 点 删除 最 大 的 和 最 小 的 几 个 bootstrap 拟 合 , 3(z) 
的 bootstrap 置信 区 间 都 可 以 用 分 位 数 方法 (9.3.1 节 ) 产生 , 如 果 这 些 逐 点 置信 区 
闻 的 上 界 与 每 个 x 相关 , 那么 该 结果 是 位 于 a(x) 上 方 的 一 个 带 . 同时 画 出 上 带 和 
相应 的 下 带 就 给 出 一 个 视觉 上 很 吸引 人 的 置信 区 域 . 
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尽管 该 方法 很 诱 人 , 但 它 很 可 能 会 产生 误导 . 首先 , 置信 带 由 未 对 同时 推断 做 
出 调整 的 逐 点 置信 区 间 构 成 . 为 把 联合 覆盖 率 修 正 到 95%, 每 个 单独 的 区 间 要 代表 
比 95% 多 得 多 的 置信 度 . 结果 将 使 逐 点 的 置信 带 大 大 加 宽 ， 

其 次 , 逐 点 置信 带 对 所 有 数据 支持 的 光滑 所 共有 的 特征 包含 的 信息 量 不 够 . 例 
如 , 所 有 的 光滑 可 能 在 同一 点 都 有 一 个 重要 的 节 , 但 逐 点 置信 带 不 一 定 有 此 特点 . 
换 句 话说, 有 可 能 画 出 光滑 曲线 使 其 完全 位 于 没有 这 种 节点 的 逐 点 区 域内 , 或 者 其 
至 是 在 该 点 有 相反 节点 的 区 域内 . 类 似 地 , 假设 所 有 的 光滑 都 有 同样 的 曲线 形状 , 且 
线性 拟 合 明显 较 差 . 如 果 置 信 带 较 宽 或 曲线 不 太 苛刻 的 话 , 有 可 能 描 出 一 个 线性 拟 
合 使 其 完全 位 于 置信 带 内 . 这 种 情况 下 , 逐 点 置信 带 不 能 表达 重要 的 推断 信息 : 即 
应 该 拒绝 线性 拟 合 . 
例 11.9 (把 光滑 和 原 模 型 比较 ) ”对 真实 条 件 均值 函数 为 B{Y|z} = z? 的 一 些 数 
据 , 图 11.16 解释 了 逐 点 置信 带 的 缺点 . 移动 直线 光滑 的 光滑 跨度 通过 交叉 验证 选 
择 , 且 逐 点 95% 置信 带 由 图 中 阴影 区 域 表 示 . 不 幸 的 是 , 原 模型 B{Y|z} = 0 完全 
位 于 逐 点 置信 带 内 部 . 下 面 我 们 介绍 另外 一 种 能 令 人 信服 地 拒绝 原 模型 的 方法 . 图 
11.16 也 表明 , 置信 带 在 数据 的 边界 附近 进行 了 适当 的 加 宽 , 以 便 在 有 较 少 邻 域 观 
测 的 这 些 区 域内 反应 增加 的 光滑 的 不 确定 性 . 口 
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图 11.16 RÉ E{Y|2} = 2? 的 一 些 数据 的 移动 直线 光滑 , 其 中 里 度 由 交叉 验证 选择 ， 
阴影 区 域 表 示 文中 描述 的 逐 点 95% 置信 带 . 注意 直线 Y = 0 完全 包含 在 置 
信 带 内 部 


逐 点 置信 带 不 能 获得 正确 的 联合 覆盖 率 , 这 可 以 通过 事后 检验 (post hoc) 调整 
进行 修正 . 把 普通 的 逐 点 置信 带 记 为 (3(z) — L(x), 3(z) + O(c), 其 中 Ê) 和 O(z) 
表示 在 z 点 处 上 逐 点 置信 带 和 下 逐 点 置信 带 离 5(z) 有 多 远 . 于 是 通过 寻找 至 少 包 
含 全 部 (1 一 a)100%bootstrap 曲线 的 置信 带 (3(z) —wÊ(2), 3(z) +w 广 (z)) 中 最 小 的 
w 可 以 使 置信 带 变 宽 , 其 中 (1 一 a)100% 是 期 望 的 置信 水 平 . 尽管 该 方法 可 以 提高 
联合 覆盖 率 , 但 它 并 不 会 改变 置信 带 的 形状 . 

逐 点 置信 带 不 能 正确 地 表示 bootstrap 置信 集 的 形状 , 这 不 能 归咎 于 置信 带 逐 
点 的 本 质 ; 更 确切 地 说 , 这 是 因为 试图 把 n 维 置 信和 集 降 为 二 维 图 像 所 产生 的 . 即使 
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使 用 具有 正确 联合 覆盖 率 的 带宽 , 同样 的 问题 依然 存在 . 基于 这 个 原因 , 添加 属于 
联合 置信 集 的 多 条 光滑 曲线 可 能 更 加 合理 , 而 不 用 试图 去 画集 合 本 身 的 边界 . 下 面 
我 们 给 出 另 一 种 适合 线性 光滑 的 bootstrap 方法 . 

假设 响应 变量 有 常 方差 . 在 具有 该 方差 的 估计 量 中 , Hastie 和 Tibshirani [280] 
建议 


= RSS) (ôx) 
~ n- 2tr{S} + tr{ SST} (196) 
基 -1 
V = (ê, — 8)" (ess") (a -= 8) (11.37) 


是 渐进 枢 轴 的 , 因此 其 分 布 粗略 地 与 真实 的 潜在 曲线 独立 . 像 上 面 那样 对 残 差 进行 
bootstrap 抽样 , 每 次 计算 bootstrap 拟 合 向 量 3°, 相应 的 值 为 


V* = (a —4))7 (asst) * (a% — 4). (11.38) 


用 V* 值 的 集合 去 构造 V* 的 经 验 分 布 . 删除 那些 V* 值 位 于 经 验 分 布 极 值 的 boot- 
strap WA. 登 加 地 面 出 余下 的 光滑 一 一 或 余下 光滑 的 子 集 . 这 对 光滑 的 不 确定 性 
提供 了 一 个 有 用 的 图 像 . 

例 11.10 (把 光滑 和 原 模型 比较 , 续 ) ”用 移动 直线 光滑 对 例 11.9 描述 的 数据 应 用 
上 面 的 方法 得 到 图 11.17. 该 图 显示 的 逐 点 区 域 与 图 11.16 中 逐 点 置信 带 基本 相同 ， 
但 图 11.17 可 以 确定 光滑 是 如 同 y = z? 一 样 的 曲线 . 实际 上 在 1 000 次 bootstrap 
迭代 中 , 只 有 三 个 光滑 像 是 具有 非 正 二 阶 导数 的 函数 . 因此 , 这 种 bootstrap 方法 强 
烈 拒绝 原 关系 Y = 0, 而 逐 点 置信 带 不 能 将 其 排除 . 


一 0.50 一 0.25 0 0.25 0.50 

预测 变量 

图 11.17 图 11.16 中 数据 的 20 个 bootstrap 光滑 , 其 中 V" 值 都 位 于 
bootstrap 分 布 的 95% 中 心 区 域内 ; 见 例 11.10 


文献 [168, 269, 280, 370] 中 对 评价 光滑 结果 的 不 确定 性 给 出 了 多 种 其 他 的 boot- 
strap 方法 和 非 参 方法 . 
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11.6 “一般 二 元 数据 


对 一 般 二 元 数据 , 预测 变量 和 响应 变量 之 间 没 有 明显 的 区 别 , 即使 这 两 个 变量 
表现 出 很 强 的 关系 . 因此 把 变量 记 为 X 和 X 更 加 合理 . 作为 这 种 数据 的 例子 , 考 
虑 散 点 图 如 图 11.18 所 示 的 两 个 变量 . 这 个 例子 中 , 要 估计 的 曲线 同 X; 和 XQ 联 
合 分 布 的 曲线 疹 顶 一 致 . 


xX, 为 


图 11.18 ”左边 面板 显示 的 数据 是 分 散在 如 下 给 定 的 以 时 间 为 参数 的 曲线 周围 ，(z(7)， 
y(T)) = ((1 — cos) cos7, (1 — cosr)sin7), 其 中 re [0, 37/2), 该 曲线 用 实 


RER. 点 线 表示 Xo 对 Xi 的 五 阶 多 项 式 回归 的 结果 , 虚线 表示 X 对 X 
的 五 阶 多 项 式 回归 的 结果 . 右边 面板 显示 的 是 这 些 数据 的 主 曲 线 (KR) 以 
及 真实 曲线 (点 线 ). CNP BR 


这 种 问题 中 随意 把 一 个 变量 标 为 预测 变量 , 把 另 一 个 变量 标 为 响应 变量 是 达 不 
到 预期 目标 的 . 例如 , 图 11.18 左边 的 面板 显示 了 由 普通 的 五 阶 多 项 式 回归 得 到 的 
两 个 拟 合 . 每 条 线 都 是 通过 最 小 化 一 组 残 差 而 得 到 的 , 这 些 残 差 平行 于 响应 轴 且 度 
量 了 数据 点 和 拟 合 曲线 间 的 距离 , 一 种 情况 是 把 Xi 当 作 响应 变量 , 另 一 种 情况 是 
把 Xa 当 作 响 应 变量 . 结果 出 现 非常 不 同 的 答案 , 且 在 这 种 情况 下 它们 都 对 真实 关 
RUA. 

11.18 右边 的 面板 显示 了 这 些 数据 的 另 一 种 曲线 拟 合 , 这 里 , 曲线 是 通过 最 
小 化 数据 点 和 曲线 的 正 交 距 离 而 得 到 的 , 并 没有 指定 任何 变量 为 响应 变量 ， 这 种 
方法 与 任何 局 部 邻 域 的 数据 点 应 该 落 在 曲线 附近 这 一 局 部 平均 的 观点 是 相符 合 的 . 
正式 描述 这 种 想法 的 方法 在 12.2.1 节 给 出 , 该 节 将 讨论 对 没有 明显 预测 和 响应 变量 
区 别 的 一 般 p 维 数据 进行 光滑 的 主 曲 线 方法 . 令 p= 2 就 给 出 了 这 里 的 二 元 情形 . 


问 题 


11.1 从 下 面 模型 中 生成 100 个 随机 点 : X ~ Unif(0,x) MY = g(X) + e, 其 中 独立 地 
ela~ N(0, 9(x)?/64}, g(x) = 1+ sn) 用 常 跨度 (对 称 最 近邻 ) 移动 平均 光滑 对 你 的 
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11.2 


11.4 


数据 进行 光滑 . 从 交叉 验证 选 的 2k +1 (1 < k < 11) 中 选 一 个 跨度 . 具有 相同 跨度 的 
移动 中 位 数 光滑 有 很 大 不 同 吗 ? 

按照 下 面 描述 的 用 问题 11.1 中 的 数据 来 研究 核 光 滑 : 

(a) 用 正 态 核 光滑 对 数据 进行 光滑 . 使 用 交叉 验证 选择 核 的 最 优 标准 偏差. 

(b) 定义 对 称 三 角 分 布 为 


0, 4\z— pl >h, 
fziph) = (z-u+h)/@, 4u-h<ae<p, 
(ut+th—a)/a?, “4y<a<cpth 


该 分 布 的 标准 差 为 a/ V6. 用 对 称 三 角 核 光滑 对 数据 进行 光滑 . 用 交叉 验证 对 第 一 
种 情形 使 用 的 同样 的 标准 差 进行 搜索 并 选 出 最 优 值 

(c) > 

F(z; u, h) = c(1 + cos{2nz log {|z| + 1}}) exp{—27/2}, 

其 中 z= (@—p)/h, E c 为 常数 . 画 出 该 密度 函数 ,该 密度 的 标准 差 大 约 为 0.90h. 
对 数据 使 用 该 核 进行 核 光滑 ， 用 交叉 验证 对 前 面 使 用 的 同样 的 标准 差 进行 搜索 并 
选 出 最 优 值 . 

(d) 比较 用 这 三 种 核 产生 的 光滑 .比较 它们 在 最 优 跨度 的 CVRSS 值 . 比较 最 优 跨度 本 
身 . 对 核 光滑 来 说 , 对 核 和 跨度 的 相对 重要 性 给 出 说 明 ? 

用 问题 11.1 的 数据 按照 下 面 的 描述 研究 移动 直线 和 移动 多 项 式 光滑 : 

(a) 用 具有 对 称 最 近邻 的 移动 直线 光滑 对 数据 进行 光滑 .从 交叉 验证 选 的 2 十 1 (1 < 
k <11) 中 选 一 个 跨度 . 

(b) 对 3 MA 5 阶 移动 局 部 多 项 式 光滑 重复 该 过 程 ; 每 次 在 k 合适 的 范围 内 用 交叉 验 
证 选择 最 优 跨度 (提示 : 你 可 能 需要 对 多 项 式 各 项 进行 正 交 化 , 同时 对 数据 边缘 附 
近 较 大 的 跨度 要 尽 可 能 地 降低 多 项 式 的 次 数 .) 

(c) 对 这 三 种 光滑 (局 部 线性 , 三 次 和 五 次 ) 的 质量 和 特点 进行 评价 . 

(d) 多 项 式 的 阶 数 和 最 优 跨度 之 间 看 上 去 有 关系 吗 ? 

(e) 对 这 三 个 CVRSS 图 做 评价 . 

本 书 的 主页 上 提供 了 火星 大 气 的 温度 -压力 轮廓 图 数据 , 这 是 2003 年 由 火星 全 球 探测 

者 号 太空 船用 无 线 电 掩 星 技术 测量 的 [540]. 气温 一 般 会 随 着 行星 中 心 半 径 (海拔 ) 的 

升 高 而 降低 . 

(a) 把 气温 作为 半径 的 函数 分 别 用 光滑 样 条 、loess 及 至 少 一 种 其 他 的 技术 进行 光滑 . 对 
每 个 程序 说 明 所 选 的 跨度 是 合理 的 . 

(b) 数据 集 也 包含 了 气温 测量 的 标准 误 . 对 (a) 部 分 考虑 的 光滑 分 别 用 合理 的 加 权 方案 
产生 加 权 光滑 . 把 这 些 结果 与 以 前 的 结果 进行 比较 并 讨论 . 

(c) 对 你 的 光滑 构造 置信 带 并 讨论 . 

(d) 这 些 数据 来 源 于 太空 船 7 个 不 同 的 轨道 . 这 些 轨道 在 火星 中 穿 过 的 区 域 有 点 儿 不 
同 . 更 加 完整 的 数据 集 包括 轨道 号 、 大 气压 力 、 经 度 、 纬 度 及 其 他 变量 , 这 可 从 本 
书 主页 的 文件 “marsall.dat’ 中 得 到 . 初学 的 学 生 可 光滑 一 些 其 他 感 兴趣 的 变量 对 . 
高 等 的 学 生 可 试图 改进 以 前 的 分 析 , 比如 通过 调整 轨道 号 或 经 度 和 纬度 . 这 种 分 析 
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11.5 


11.6 


可 能 包含 参数 和 非 参 的 模型 成 分 . 
重新 生成 图 11.8 (提示 : 样 条 光滑 的 核 可 用 合适 的 响应 数据 向 量 由 任何 软件 包 生成 的 
拟 合 反 向 工程 地 得 到 ). 
(a) 对 第 二 个 最 小 预测 值 的 光滑 生成 类 似 于 图 11.8 的 图 . 将 其 与 第 一 个 图 作 比较 . 
(b) 对 不 同 的 z; 和 X, 从 图 形 上 比较 三 次 光滑 样 条 的 等 价 核 . 
图 11.19 显示 了 在 强力 空气 爆炸 中 暴露 的 钢板 上 两 个 传感器 间 显示 的 压力 差 [299]. 就 
在 爆炸 前 后 的 这 段 时 间 有 161 个 观测 . 图 11.19 中 的 噪声 可 归于 瞬时 清晰 度 不 足 及 传 
感 器 和 记录 设备 的 误差 :产生 这 些 数据 的 潜在 物理 冲击 波 是 光滑 的 .这 些 数 据 可 从 本 
书 的 主页 上 得 到 . 
(a) 对 这 些 数据 构造 一 个 移动 直线 光滑 , 跨度 由 观察 选择 . 
(b) Xt k € {3, 5,7, 11, 15, 20, 30,50} 作出 CVRSSk(sk) 对 k 的 图 并 做 评论 . 
(c) 对 这 些 数据 用 任何 你 想 用 的 光滑 和 跨度 生成 最 令 人 满意 的 光滑 .说 明 你 为 什么 选 

择 它 . 
(d) 对 这 些 数据 进行 光滑 以 及 跨度 选择 中 的 困难 进行 评价 . 

2.5 


EH% (|kPal) 


oi Te 
一 0.01 0 0.01 0.02 0.03 
时 间 (s) 


图 11.19 问题 11.6 中 空气 爆炸 压力 差别 的 数据 


11.7 对 问题 11.6 中 的 数据 及 你 最 喜欢 的 线性 光滑 方法 , 分 别 用 11.5 节 给 出 的 每 种 方法 对 光 


滑 构造 置信 带 , 并 进行 讨论 . (使 用 样 条 光滑 是 非常 有 趣 的 .) 


第 12 章 ”多 元 光滑 方法 
12.1 ”预测 -响应 数据 


多 元 预测 -响应 光滑 方法 对 观测 (zi, gi) 拟 合 光滑 的 曲面 , 其 中 mi 是 有 p 个 预 
测 变 量 的 向 量 , w 是 相应 的 响应 值 . 数值 yy,… ,gr 看 作 是 随机 变量 Yi,- , Yn 的 
观测 , 其 中 到 的 分 布依 赖 于 第 i 个 预测 变量 的 向 量 . 

第 11 章 讨论 的 许多 二 元 光滑 方法 都 可 推广 到 儿 个 预测 变量 的 情形 .移动 直 
线 可 用 移动 平面 代替 . 一 元 核 可 用 多 元 核 代 替 . 样 条 光滑 的 一 个 推广 是 薄板 样 条 
[245,382]. 除了 实际 执行 这 些 方法 时 重大 的 复杂 性 外 , 在 使 用 多 个 预测 变量 时 光滑 
问题 的 本 质 也 有 基本 的 变化 . 

维 数 的 祸根 是 指 高 维 空间 是 广阔 的 且 数 据点 没有 几 个 近邻 ， 当 应 用 到 多 元 密 
度 估计 时 10.4.1 节 讨论 了 同样 的 问题 . 考虑 体积 为 rz/2/F(3 + 1) 的 p 维 单位 球面 . 
假设 几 个 p 维 预测 变量 点 均匀 地 分 布 在 半径 为 4 的 球 内 . 在 一 维 情况 下 , 有 25% 的 
预测 变量 期 望 落 在 单位 球 内 ， 因此 单位 球 对 光滑 可 能 是 合理 的 邻 域 . 表 12.1 表明 
随 着 p 的 增加 该 比例 迅速 地 趋 于 零 . 当 全 组 数据 都 落 在 半径 为 4 的 球 内 时 , 为 保持 
有 25% 的 点 在 邻 域内 , 若 p= 20, 那么 邻 域 球 的 半径 将 为 3.73. 因此 局 部 邻 域 的 概 
念 就 失效 了 . 


#121 p 维 单位 球面 的 体积 与 半径 为 4 的 球面 的 体积 之 间 的 比值 


P 比值 
1 0.25 

2 0.063 

3 0.016 

4 0.003 9 

5 0.000 98 
10 9.5 x 1077 
20 9.1 x 10713 
100 6.2 x 10-61 


维 数 的 祸根 使 人 们 开始 关心 多 元 数据 光滑 的 有 效 性 ， 有 效 的 局 部 平均 要 求 在 
每 个 邻 域内 有 大 量 的 数据 点 , 而 要 找到 这 些 点 , 邻 域 必 须 伸 向 大 部 分 的 预测 空间 . 
文献 [280,281,484] 描述 了 多 种 有 效 的 多 元 曲面 光滑 方法 . 

在 地 质 统计 学 和 空间 统计 学 的 研究 中 发 展 了 大 量 适合 二 维和 三 维 情况 的 光滑 
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方法 . 特别 地 , Kriging 方法 比 许多 这 里 考虑 的 一 般 光 滑 有 更 原则 性 的 推断 基础 . 我 
们 在 此 不 再 深入 讨论 该 方法 , 但 读者 可 参考 关于 空间 统计 学 的 书籍 , 如 [110,254]. 
12.1.1 ”可 加 模型 

简单 线性 回归 基于 模型 E{Y|z} = bo + Bic. 二 元 预测 -响应 数据 的 非 参 光滑 将 
其 推广 为 B{Y|z} = s(z), 其 中 s 为 某 光滑 函数 . 现在 我 们 试图 类 推 到 有 p 个 预测 

了 

变量 的 情形 . 多 元 回归 使 用 模型 ETYlz} = Bo + Bete 其 中 g= (21,--- tp). 
对 光滑 的 推广 是 可 加 模型 


E{Y |z} = a + > sk(zh)， (12.1) 
k=l 


其 中 sx 是 第 上 个 预测 变量 的 光滑 函数 . 因此 , 总 模型 由 对 平均 响应 具有 可 加 影响 
的 一 元 效应 构成 . 
拟 合 这 种 模型 依赖 于 关系 


sk(Zk) = E{Y -a - by s;(x;)|z}, (12.2) 

J#k 
其 中 zk 是 z 的 第 个 成 分 . 假设 希望 在 zx 处 估计 sk 且 假设 在 该 zx 处 观测 了 
= 个 预测 变量 的 许多 重复 值 , 进一步 假设 除 sk 外 所 有 的 sj (G k) 都 已 知 , 那 
么 (12.2) 式 右边 的 期 望 值 可 用 与 指标 i 相应 的 Yi- a- D s;(zi;) 值 的 平均 来 估 


th, 其 中 第 个 变量 的 第 i 个 观测 满足 zik = zp. 然而 对 实际 数据 来 说 很 可 能 没有 
这 种 重复 . 该 问题 可 通过 光滑 来 解决 : 对 第 k 个 坐标 在 of 邻 域内 的 所 有 点 上 取 平 
均 . 另 一 个 问题 ( 即 实际 上 所 有 的 s; 都 是 未 知 的 ) 可 以 通过 光滑 步 循 环 迭 代 来 解 
决 , 即 根据 (12.2) 那样 的 分 解 对 所 有 jAk hI si 用 当前 最 好 的 猜测 更 新 sk. 

这 种 迭代 方法 称 为 后 退 拟 合算 法 ， SY = (Yi Yn)” BURA k, > a? 
表示 在 第 t 次 迭代 中 srlri) 的 估计 值 (i = 1,- ,n) 构成 的 向 量 . 每 个 观测 上 估 
计 光 滑 值 的 n 维 向 量 按 如 下 步骤 更 新 : 

(1) 令 & An 维 向 量 (了 ,… YT. 某 些 其 他 响应 值 的 广义 平均 可 替代 样本 均 
值 Y. 令 上 = 0, 其 中 上 表示 和 迭代 次 数 . 

(2) 令 aO 代表 在 观测 数据 上 对 逐个 坐标 光滑 的 初步 猜测 . 一 种 合理 的 初步 猜 
测 是 令 80) = = (zi Brann)? (k = 1,… ,p) 其 中 Êr 是 Y 对 预测 变量 回归 时 
的 线性 回归 系数 . 

(3) 依次 对 大 = 1,… ,p, È 


af) = smooth, (re), (12.3) 
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其 中 
rk=Y -oa- a) -Sa (12.4) 
j<k j>k 
AL smoothe (ra) 表示 通过 对 预测 变量 的 第 个 坐标 值 , 即 zik,…- ,rnk, 光滑 rk 的 
元 素 并 求 在 zi 的 光滑 值 所 得 到 的 向 量 . 
(4) 增加 t 并 转 入 第 3 步 . 
当 a 变化 都 不 大 时 算法 终止 一 一 也 许 是 当 


> (at — a)" (a — a) D> (8) a 
k=l 


k= 


非常 小 时 . 

要 理解 为 什么 该 算法 管用 , 回忆 在 给 定 矩 阵 A 和 常数 向 量 p 后 解 z 的 线性 系 
统 Az = b 的 Gauss-Seidel 算法 (2.2.4 Fi). Gauss-Seidel 程序 用 初 值 zo 进行 初始 
化 . 然后 , 在 给 定 其 他 成 分 的 当前 值 后 依次 解 z 的 每 个 成 分 . 该 过 程 一 直 迭 代 到 收 
SALE. 

假设 只 用 线性 光滑 来 拟 合 可 加 模型 , BS Sx 为 第 个 光滑 成 分 的 nxn 光滑 
Pe 那么 后 退 所 合算 法 解 由 ak = Sk(Y — D 8) 给 定 的 方程 组 , RIERS 

j 


该 方程 组 为 


IS; Spe Sy ŝi SY 
S2 I Sp ... So âz SY 
Ge A i .|= ; , (12.5) 
Sp Syp I êp SpY 


它 具 有 形式 Az = b, 其 中 z = (81,82, 8p)" = 8. HERB b = AY, 其 中 4 是 
对 角 线 上 为 矩阵 Sy 的 分 块 对 角 矩 阵 . 由 于 后 退 拟 合算 法 作为 单独 的 块 依次 更 新 每 
个 向 量 sk, 故 更 正式 地 应 称 为 分 决 Gauss-Seidel 算法 . 迭代 的 后 退 拟 合算 法 更 受 欢 
W, 因为 它 比 直接 求 A 逆 的 方法 更 快速 . 

现在 我 们 转向 后 退 拟 合算 法 的 收敛 性 及 解 的 唯一 性 问题 . 这 里 回顾 一 下 类 似 
的 多 元 回归 是 很 有 帮助 的 ， 令 D 表示 n x p 的 设计 阵 , 其 第 i 行为 rz， 从 而 
D = (z1,… ,zn)T. 考虑 解 6 的 多 元 回归 正规 方程 DTDB = DTY. 当 任何 预测 
变量 线性 相关 时 , 或 等 价 地 , 如 果 DTD 的 列 线性 相关 时 , 8 的 元 素 就 不 能 唯一 确 
定 . 在 这 种 情况 下 , 存在 向 量 7 使 得 DTDY = 0. 因此 , 如 果 是 正规 方程 的 解 ， 
那么 对 任何 的 c, B+ cy 也 是 一 个 解 . 

类 似 地 , 如 果 存 在 y 使 Ay = 0, 那么 后 退 拟 合 估计 方程 As = AY 也 将 
没有 唯一 解 . 令 五 表示 通过 第 个 未 变化 光滑 的 向 量 所 张 成 的 空间 ， 如 果 这 些 
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空间 线性 相关 , 那么 存在 Yk e Te 使 得 Èn = 0. 在 此 情况 下 , Ay = 0, 其 中 
Y= (Y1,Y2，… Yp)", 因此 不 存在 唯一 解 ( 见 问题 12.1). 

该 问题 更 加 完整 的 讨论 见 Hastie and Tibshirani [280], 从 中 可 得 到 如 下 结果 
假设 p 个 光滑 是 线性 的 , 且 每 个 Sx 为 特征 值 在 [0, 1) 的 对 称 矩 阵 . 于 是 Ay = 0 当 
且 仅 当 存 在 线性 相关 的 ye e Te , HEA k 个 未 变化 的 光滑 . 此 时 , 有 很 多 解 
满足 As = AY 且 根 据 初 值 的 选择 , 后 退 拟 合 收敛 到 其 中 的 一 个 . 否则 , 后 退 拟 合 
收敛 到 唯一 解 . 

允许 模型 的 可 加 成 分 为 多 元 的 且 对 不 同 的 成 分 允许 使 用 不 同 的 光滑 方法 , 这 可 
以 进一步 提高 可 加 模型 的 灵活 性 . 例如 , 假设 有 7 个 预测 变量 zt, … ,zr, 其 中 mi 
是 水 平 取 1,… ,c 的 离散 变量 ， 那 么 估计 E{Ylz} 的 加 法 模型 可 用 后 退 拟 合 去 拟 


4: 
合 : 


c-l 
â+ Dl) + 8(22) + P(r3) + i(z4, 25) + f(re, 27), (12.6) 
i=1 


其 中 Â 对 Xi 的 每 个 水 平 允许 单独 可 加 的 效应 , 3(z2) 是 对 zs? 的 样 条 光滑 , P(z3) 
是 对 zs 的 三 次 多 项 式 回归 , Hzs,zs) 是 12.1.4 节 中 递归 分 块 的 回归 树 , f(ze,z7) 是 
二 元 核 光 滑 ， 按 这 种 方式 对 几 个 预测 变量 进行 分 组 提供 了 Gauss-Seidel 算法 执行 
中 的 粗糙 分 块 . 

例 12.1 (挪威 纸 ) ”考虑 来 自 挪威 哈 尔 登 某 纸 厂 的 一 些 数据 9). 响应 是 纸 中 瑕 站 
的 度量 , 有 2 个 预测 变量 . (这 里 的 Y, 2, 和 za 分 别 相当 于 作者 原文 中 的 16- Ys, X 
和 Xa). 图 12.1 的 左边 面板 显示 的 是 用 没有 交互 项 的 普通 线性 模型 拟 合 的 响应 曲 
面 . 右边 面板 显示 的 是 对 同样 数据 拟 合 的 可 加 模型 . 估计 的 ak 见 图 12.2. 显然 ma 
对 响应 有 非 线性 效应 ; PERPE X E Lanseria AN 口 


图 12.1 对 例 12.1 中 挪威 纸 数据 拟 合 的 线性 模型 ( 左 ) 和 可 加 模型 (A) 


12.1.2 ”广义 可 加 模型 


线性 回归 模型 可 按 几 种 方式 进行 推广 .上面 我 们 已 经 把 线性 预测 变量 用 光滑 
的 非 线性 函数 苦 代 . 对 线性 回归 的 不 同 推广 属于 广义 线性 模型 发 展 的 方向 [379]. 
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s(a) 


K 
12.2 ”对 例 12.1 中 扬威 纸 数 据 用 可 加 模型 拟人 的 光滑 ak(zk), 各 点 是 如 (12.3) 
式 右边 给 出 的 偏 残 差 , 即 Si (arin) 加 上 最 终 光滑 的 总 残 差 


假设 Ylz 有 指数 族 分 布 . 令 u = E{Y|z}- 广义 线性 模型 假设 u 的 某 函 数 是 预 
测 变量 的 线性 函数 . 换 句 话说 , 模型 为 g(u) = a 十 | Brar, 其 中 g 称 为 连接 函数 . 
例如 , 单位 连接 glu) = u 用 于 对 高 斯 分 布 的 响应 建 模 , glu) = logu 用 作对 数 线性 
模型 , 而 glu) = log{ 4} 用 作对 Bernoulli 数据 建 模 的 连接 函数 . 

广义 可 加 模型 (GAM) 按照 类 似 于 广义 线性 模型 推广 线性 模型 的 方式 推广 了 
12.1.1 节 的 可 加 模型 . 对 指数 族 的 响应 数据 , 选择 连接 函数 g, 且 模 型 为 


P 
glu) =a+ > se(zx), (12.7) 
k=1 


其 中 sk 是 第 大 个 预测 变量 的 光滑 函数 . (12.7) 式 的 右边 记 为 n 并 称 之 为 可 加 预测 . 
GAM 在 可 加 预测 中 具有 非 线性 光滑 效应 额外 的 灵活 性 , 提供 了 广义 线性 模型 发 展 
的 范围 和 多 样 性 . 

对 广义 线性 模型 来 说 , u = E{Y|z} 的 估计 通过 和 迭代 再 加 权 最 小 二 乘 去 做 . 概 
括 来 说 , 算法 在 以 下 两 步 中 交替 进行 : (i) 构造 调整 的 响应 值 及 相应 的 权重 ; (i) 用 
调整 的 响应 对 预测 变量 拟 合 加 权 线性 回归 . 这 些 步骤 一 直 重复 到 拟 合 收敛 为 止 , 

具体 地 , 我 们 在 2.2.1 节 第 1 部 分 描述 了 拟 合 指数 族 广义 线性 模型 的 迭代 再 加 
权 最 小 二 乘法 为 什么 实际 上 就 是 Fisher 得 分 法 . Fisher 得 分 法 基本 上 受 启发 于 估 
计 参 数 时 对 产生 更 新 方程 的 得 分 函数 的 线性 化 . 更 新 通过 加 权 线性 回归 获得 . 调整 
的 响应 和 权重 定义 为 (2.41). 更 新 的 参数 向 量 包 括 对 调整 的 响应 进行 加 权 线 性 最 小 
二 乘 回 归 得 到 的 系数 . 

对 拟 合 GAM 来 说 , 用 加 权 光 滑 来 替换 加 权 线 性 回归 . 导出 的 程序 称 为 局 部 得 
分 , 描述 如 下 . 首先 令 m 为 观测 i 的 平均 响应 , 故 js = BE{Yilzi} = g7 (n), 其 中 i 
称 为 可 加 预测 变量 的 第 i 个 值 ; 令 Vo) 为 方差 函数 , Bl var{Yi|zi} 表示 成 pi 的 
函数 . 算法 如 下 进行 : 
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(1) 在 t= 0 初始 化 算法 . 对 = 1,… ,p， 令 a = gP), 30)(.) = 0. 这 也 
初始 化 了 与 每 个 观测 相应 的 可 加 预测 变量 值 te 4 = = 4 + È 8 (rin) 及 拟 合 值 
A? = gO). 

(2) 对 i = 1,… ,p, 构造 调整 的 响应 值 


=f 
aD =? + (y-a) (£ é) . (128) 


dm In=at 
(3) 对 i= 1,… n, 构造 相应 的 权重 


4 


(4) 用 12.1.1 节 中 后 退 拟 合算 法 的 加 权 版 本 去 估计 新 的 可 加 预测 sit. 在 这 
一 步 中 , 对 调整 的 响应 值 + 用 权重 wl*+” 拟 合 形 如 (12.7) 的 加 权 可 加 模型， 
可 得 SEY (rahi = 1,… ,n;k = 1,… ,p. 下 面 还 会 详细 描述 , 该 步 也 可 计算 新 的 
Atty 和 as), 


(5) 计算 形 如 


p pon 
LD (sea) -P n)) ) /23 sc (12.10) 
k=1 i=1 k=1 i=1 

的 收敛 准则 , 且 当 其 较 小 时 停止 迭代 , 否则 , 转 入 第 2 步 . 

要 回 到 标准 的 广义 线性 模型 , 唯一 需要 变换 的 是 把 第 4 步 中 的 光滑 用 加 权 最 小 二 
乘 替 换 . 

第 4 步 中 的 加 权 可 加 模型 的 拟 合 要 求 加 权 的 光滑 方法 . 对 线性 光滑 来 说 , 引入 
权重 的 一 种 方法 是 对 每 个 i 用 ul) RA S 第 i 列 中 的 元 素 . 然后 对 每 行 标准 化 
使 其 求 和 为 1. 还 有 些 其 他 更 自然 的 方法 对 线性 光滑 (如 样 条 光滑 ) 和 非 线 性 光滑 
进行 加 权 . 关于 加 权 光 滑 和 局 部 得 分 的 进一步 讨论 请 参考 [280,485]. 

与 可 加 模型 一 样 , GAM 中 的 线性 预测 变量 不 必 只 包含 同 种 类 型 的 一 元 光滑 . 

在 12.1.1 节 中 关于 更 一 般 且 更 灵活 的 模型 构建 想法 在 此 也 同样 适用 . 
例 12.2 (药物 滥用 ) ”本 书 的 主页 上 提供 了 对 药物 滥用 接受 社区 治疗 的 575 位 病 
人 的 数据 [294]. 响应 变量 是 二 元 的 , 其 中 Y = 1 表示 1 年 内 未 使 用 任何 药物 的 病 
A, 否则 Y = 0. 我 们 调查 两 个 预测 变量 : 以 前 药物 治疗 的 次 数 (z1) 和 病人 的 年 龄 
(zz). 一 种 简单 的 广义 可 加 模型 为 Yi|z; ~ Bernoulli(ri), 其 中 


n 


toe { =} 一 ca 十 Blsi(za) 十 Bosz(ziz). (12.11) 
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在 拟 合算 法 的 第 4 步 使 用 样 条 光滑 . 图 12.3 显示 了 以 概率 为 尺度 画 出 的 拟 合 响应 
曲面 . 图 12.4 显示 了 logit 尺度 的 拟 合 光滑 Sr 原始 的 响应 数据 用 # 号 沿 每 个 面 
板 的 底部 (v: = 0) 和 顶部 (yi = 1) 显示 . 


Be 
图 12.3 ”对 例 12.2 中 描述 的 药物 滥用 数据 的 广义 可 加 模型 的 拟 合 . 竖 轴 对 应 余 
下 一 年 内 未 使 用 任何 药物 的 预测 概率 
2 


1 


oe 


0 20 40 20 30 40 50 
r Ty 


s(a) 


图 12.4 ”对 例 12.2 中 药物 滥用 数据 用 广 义 可 加 模型 执 合 的 光滑 函数 Sq. 沿 每 个 面板 
的 底部 (vi = 0) 和 顶部 (y=1) 在 相应 预测 变量 值 观测 的 位 置 用 # 号 显示 
原始 的 响应 数据 


12.1.3 与 可 加 模型 有 关 的 其 他 方法 


广义 可 加 模型 不 是 推广 可 加 模型 的 唯一 途径 .其 他 一 些 方法 对 预测 变量 或 响 
应 做 变换 以 便 对 数据 提供 更 有 效 的 模型 . 下 面 我 们 描述 4 种 这 样 的 方法 


L RY PRA 


可 加 模型 产生 由 p 个 可 加 曲面 构成 的 节点 , 每 个 曲面 沿 一 个 坐标 轴 有 非 线性 
轮廓 而 在 正 交 方 向 上 为 常 值 . 这 有 助 于 模型 的 解释 , 因为 每 个 非 线性 光滑 反应 一 个 
预测 变量 的 可 加 效应 . 但 是 , 这 也 限制 了 拟 合 对 单个 预测 变量 不 具有 可 加 贡献 的 更 
一 般 的 曲面 和 交互 效应 的 能 力 ， 投 影 寻 踪 回归 通过 允许 效应 为 预测 变量 一 元 线性 
投影 的 光滑 函数 从 而 排除 了 这 一 限制 [184,331]. 
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具体 来 说 , 这 些 模型 的 形式 取 为 


M 
E{Y|z}=a+ J (aga), (12.12) 
k=1 
其 中 每 项 afe 是 预测 向 量 z = (z1,… ,zp)T 的 一 维 投影 . 因此 每 个 s 具有 由 sk 
沿 ak 方向 决定 的 轮廓, 而 在 所 有 其 他 正 交 方向 上 保持 常数 . 在 投影 寻 踪 方法 中 , 对 
二 1,… ,MM 估计 zk 及 投影 向 量 ax 以 得 到 最 优 拟 合 . 对 充分 大 的 M, (12.12) 中 
的 表达 式 可 近似 为 预测 变量 的 任意 连续 函数 [140,331]. 

要 拟 合 这 种 模型 , 必须 选择 投影 数 M. 当 M > 1 时 , 模型 包含 不 同 线性 组 合 
age 的 几 个 光滑 函数 . 因此 结果 可 能 很 难 解释 , 尽管 模型 对 预测 很 有 用 . M 的 选择 
是 与 在 多 元 回归 模型 中 选择 各 项 类 似 的 一 个 模型 选择 问题 , 因此 类 似 的 推理 应 该 也 
成 立 . 一 种 方法 是 首先 拟 合 一 个 较 小 M 的 模型 , 然后 重复 地 添加 最 有 效 的 下 一 项 
并 重新 拟 合 . 从 而 可 产生 一 列 模型 , 直到 没有 进一步 的 额外 项 可 以 大 大 改善 拟 合 为 
ik. 

对 给 定 的 M, ME (12.12) 可 用 下 列 算法 来 实现 . 

(1) 从 m=0 开始 , 并 令 a=. 

(2) 增加 m. 对 观测 i 定义 当前 工作 残 差 为 


rf -a Y alates: i= 1 ,nm, (12.13) 
k=1 
其 中 当 m = 1 时 求 和 为 零 . 这 些 当前 的 残 差 用 来 拟 合 第 m 个 投影 . 
(3) 对 任何 p 维 向 量 a 及 光滑 sm, 定义 拟 合 优 度 度量 为 
D (r — an (ae) 
Q(a) =1- TaN 
È (x!) 


i=1 


(12.14) 


(4) 对 选择 的 光滑 类 型 , 关于 a 最 大 化 Qla) 得 到 am 和 Sm. WR m= M 则 
停止 , 否则 转 入 第 2 步 . 
例 12.3 (挪威 纸 , 续 ) ”我 们 转向 例 12.1 中 挪威 纸 的 数据 . 图 12.5 显示 了 对 M = 2 
用 投影 寻 踪 回归 拟 合 的 响应 曲面 . 对 每 个 投影 使 用 了 超 光滑 (11.4.2 节 ). 拟 合 曲面 
显示 出 预测 变量 间 的 某 些 交互 效应 , 而 这 些 效 应 在 图 12.1 中 的 两 个 模型 中 都 没有 
被 抓 住 .可 加 模型 对 这 些 预 测 变量 并 非 完全 适合 . 图 12.5 中 的 粗 线 显 示 了 二 元 预 
测 数据 投影 的 两 个 线性 方向 . 第 一 个 投影 方向 , WA ala, 与 任何 一 个 坐标 轴 的 平 
行 方向 都 差 得 很 远 . 这 使 两 个 预测 变量 的 交互 效应 拟 合 得 比较 好 . 第 二 个 投影 几乎 
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就 是 zi 贡献 的 额外 效应 . 为 进一步 理解 拟 合 的 曲面 , 我 们 单独 研究 Sr, 见 图 12.6. 
这 些 效应 及 选择 的 方向 给 出 了 比 回归 模型 或 可 加 模型 更 一 般 的 拟 合 . a 


图 12.5 ”对 挪威 纸 数据 用 M = 2 的 投影 寻 踪 回归 拟 合 的 曲面 , 见 例 12.3 的 描述 


s(a z) 


ajz ajz 
图 12.6 ”对 挪威 纸 数据 用 投影 寻 踪 回归 模型 拟 合 的 光滑 函数 3. 当前 残 差 , 即 成 分 拟 合 
的 光滑 加 上 总 残 差 , 用 点 表示 并 对 每 个 投影 aze 作 图 ,大 = 1,2 


除 预 测 -响应 光滑 外 , 投影 寻 踪 的 想法 也 应 用 到 很 多 其 他 邻 域 , 包括 多 元 响应 
数据 的 光滑 [9] 及 密度 估计 [180]. 另 一 种 方法 , 称 为 多 元 自 适应 回归 样 条 (MARS), 
与 投影 寻 踪 回归 、 样 条 光滑 (12.1.5 节 ) 及 回归 树 (12.1.4 节 第 1 部 分 ) 等 都 有 联 
系 . MARS 对 某 些 数据 集 可 能 表现 非常 好 , 但 近来 的 模拟 结果 发 现 对 高 维 数据 很 值 
得 期 待 的 结果 不 多 [19]. 


2. 神经 网 络 


神经 网 络 对 连续 响应 或 离散 响应 都 是 一 种 非 线性 建 模 方法 , 且 生成 回归 模型 或 
分 类 模型 [44,45,281,457]. 对 连续 响应 Y 及 预测 变量 c, 一 类 神经 网 络 模型 , 称 作 
前 馈 网 络 , 可 写 为 


M 
g(Y) = Bo + 》 Bnf (ane + Ym); (12.15) 


m=1 


其 中 Bo, Bm; Om; ms Mm = 1,… ,M 要 从 数据 去 估计 . 我 们 可 把 fame +m) (m= 
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1,… , M) 看 成 类 似 于 预测 变量 空间 的 一 组 基 函 数 . 这 些 不 可 直接 观测 的 KaTz + 
m) 构成 神经 网 络 专业 术语 中 所 谓 的 隐 层 .通常 ,分析 者 事先 选 好 M, 但 数据 驱 
动 的 选择 也 有 可 能 . 在 (12.15) P, 激活 函数 的 形式 一 般 选 为 logistic 函数 ， 即 
Je) = rcr 我 们 用 9 作 连 接 函 数 . 参数 通过 最 小 化 平方 误差 去 估计 , 即 基于 
梯度 的 优化 . 

神经 网 络 和 投影 寻 踪 回归 相 联系 , 其 中 (12.12) 式 中 的 sk 用 (12.15) 式 中 的 参 
数 函数 f FEB, 如 logistic 函数 . 对 上 面 给 出 的 简单 神经 网 络 模型 可 进行 很 多 扩展 ， 
如 用 不 同 的 激活 函数 考虑 另外 的 隐 层 , 设 为 h. 该 层 是 由 在 f(ale + Ym)(m = 

M) 的 许多 线性 组 合 上 的 估计 构成 的 , 其 大 概 可 作为 第 一 个 隐 层 的 一 组 基 , 神 

经 网 络 在 某 些 邻 域 非常 普及 , 而 且 有 大 量 的 软件 可 用 来 拟 合 这 些 模 型 . 
3， 交 替 条 件 期 户 

交替 条 件 期 望 ( ACE) 拟 合 如 下 形式 的 模型 


E{g(Y)le} = a + >》 sk(zh)， (12.16) 
k=1 


其 中 9 是 响应 的 光滑 函数 [58]. 与 本 章 中 多 数 其 他 的 方法 不 同 , ACE 把 预测 变量 看 
成 是 随机 变量 X 的 观测 , 而 模型 拟 合 是 由 Y AX 联合 分 布 的 考虑 所 驱动 的 . A 
体 来 说 , ACE 的 想法 是 对 大 = 1,… ,p 估计 g 和 sp, 使 得 g(Y) 和 È sk(Zk) 之 间 
相关 性 的 强度 在 限制 var{g(Y)} = 1 下 达到 最 大 . 常数 a 不 影响 该 相关 ， 故 可 忽略 . 

WE ACE 模型 需要 使 用 下 面 的 迭代 算法 . 

(1) 初始 化 算法 , & t= 0 BG (MY) = (Yi 一 了 )/6Y, 其 中 ôy WY; 值 的 样本 
标准 差 . 

(2) 用 9 (Y:) 值 作为 响应 且 SCH (Xir) 值 作 为 预测 变量 对 可 加 模型 进行 拟 合 ， 
生成 可 加 预测 函数 SY 的 更 新 估计 , k= 1,---,p. 12.1.1 节 中 的 后 退 拟 合算 法 可 
用 来 拟 合 该 模型 . 

(3) 通过 在 (看 作 预 测 变量 ) 上 光滑 = SED (Xi)( 看 作 响 应 ) 的 值 来 估计 
gh, 

(4) 通过 除 以 ACHD (Y;) 值 的 样本 标准 差 对 gt+1 重新 调整 刻度 . 该 步 是 必要 
的 , 因为 否则 不 管 数据 怎么 样 , 很 平凡 地 , 令 g(t) 和 È 3) 都 为 零 函数 就 得 到 

=1 
FRE. 5 
(5) 根据 某 相对 收敛 准则 , 如 果 = [aan - PE ea BAKAT, 
SUE LEBEAR. Bm, 增加 t 并 转 入 第 2 步 
最 大 化 È sk(Xk) 和 g(Y) 之 间 的 相关 性 等 价 于 在 var{g(Y)} = 1 的 限制 条 件 
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下 关于 g 和 {s} 最 小 化 B{[g(Y) 一 È sk(Xk)]?}. 对 p= 1, 该 目标 关于 X MY 
是 对 称 的 : 如 果 这 两 个 变量 是 可 交换 的 那么 结果 是 同一 个 常数 . 

ACE 没有 给 出 直接 建立 E(Y|X} 和 预测 变量 之 间 联 系 的 拟 合 模型 成 分 , 这 影 
响 了 模型 的 预测 . 因此 ACE 与 我 们 讨论 过 的 其 他 预测 -响应 光滑 有 很 大 的 不 同 , 因 
为 它 放弃 估计 回归 函数 的 想法 , 而 是 给 出 了 相关 分 析 . 因此 , ACE 可 以 得 到 令 人 意 
外 的 结果 , 尤其 是 当 变量 之 间 相 关 性 较 弱 时 . 关于 这 种 问题 以 及 拟 合算 法 的 收敛 性 
质 的 讨论 , 请 参考 文献 [58,74,280]. 
4. 可 加 性 及 方差 平稳 化 

依赖 于 响应 变换 的 另 一 种 不 同 的 可 加 模型 是 可 加 性 及 方差 平稳 化 (AVAS) [535]. 
模型 与 (12.16) 式 完 全 一 样 , 只 是 9 限制 为 严格 单调 且 对 某 常数 C 有 


p 
全 we] =C (12.17) 
k=1 


拟 合 该 模型 需要 使 用 下 面 的 迭代 算法 . 

(1) 初始 化 算法 : 令 上 =0 且 50(8%) = (Yi 一 了 )/6y, 其 中 ôy X Y, 值 的 样本 
标准 差 

(2) 初始 化 预测 函数 ， 对 GOY) 与 预测 数据 拟 合 可 加 模型 ， 得 到 3(0)， 二 
1,… ,p, 这 与 ACE 做 法 一 样 . 

(3) 记 当前 的 均值 函数 为 f(t) = x SO (Xu). 要 估计 方差 平稳 变换 , 首先 必须 


估计 给 定 AO =u 时 GOY) 的 条 件 方差 函数 . 该 函数 VO (u) 通过 将 当前 的 对 数 
平方 残 差 对 u 进行 光滑 并 将 结果 取 指数 进行 估计 . 

(4) 给 定 VO(u), 计算 相应 的 方差 平稳 变换 (2) = if DO (u) du. 该 积 
分 可 通过 第 5 章 的 数值 方法 去 实现 . 

(5) 更 新 并 标准 化 响应 变换 : 定义 AD (y) = [YO GO(Y)) — PO)/oyo, 其 中 
PO 和 yo 分 别 表示 WO (9 (Yi)) 值 的 样本 均值 和 样本 标准 差 . 

(6) 更 新 预测 函数 :对 oO) 与 预测 数据 拟 合 可 加 模型 , 得 到 OY, k = 

+p, 这 与 ACE 做 法 一 样 . ， 

(7) 根据 菜 相对 收 全 准则 , 如 果 È [any - Ear, w] 已 经 收敛 了 ， 
则 停 目 迭代 , 否则 , 增加 t 并 转 入 第 3 Be. 

与 ACE 不 同 , AVAS 程序 非常 适合 预测 -响应 回归 问题 . 关于 该 方法 详细 的 细 
节 请 参考 [280,535]. 

ACE 和 AVAS 都 可 对 标准 的 多 元 回归 建 模 提出 参数 变换 . 特别 地 , 通过 将 ACE 
或 AVAS 变换 后 的 预测 对 未 变换 的 预测 作 图 有 时 可 对 标准 回归 建 模 给 出 简单 的 逐 
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段 线性 或 其 他 变换 [136,290]. 
12.1.4 WBE 


树 型 方法 根据 与 响应 变量 相似 程度 把 预测 变量 空间 和 欠 代 地 划分 成 几 个 子 区 域 . 
这 种 方法 一 种 重要 的 吸引 力 在 于 往往 很 容易 描述 和 解释 节点 .基于 马上 要 讨论 的 
原因 , 这 些 节 点 加 在 一 起 称 作 树 . 

统计 学 家 最 熟悉 的 树 型 方法 是 Breiman, Friedman, Friedman, Olshen and Stone 
[59] 中 描述 的 分 类 与 回归 树 (CART) 方法 . 执行 树 型 建 模 的 所 有 权 软 件 和 开放 源 
码 软件 是 容易 得 到 的 [96,199,516,533,545]. 尽管 执行 细节 不 同 , 但 所 有 这 些 方法 基 
本 上 都 是 基于 和 迭代 分 类 这 一 想法 的 . 

可 以 用 下 面 两 种 信息 的 集合 对 树 进行 总 结 : 

。 一 系列 二 元 (是 - 否 ) 问题 的 答案 , 其 中 每 个 问题 是 根据 单一 的 预测 变量 值 

设计 的 ; 

。 一 组 基于 这 些 问 题 的 答案 对 响应 变量 进行 预测 的 值 . 
一 个 例子 将 会 使 树 的 本 质 更 加 清楚 . 
例 12.4 (河流 监控 ) ”在 称 为 地 层 的 河床 上 生存 着 各 种 大 型 无 消 椎 动物 的 生物 体 . 
为 监控 河流 健康 , 生态 学 家 使 用 生物 完整 性 指数 (IBI) 这 一 度量 对 河流 维持 自然 生 
物 群落 的 能 力 进行 量化 . IBI 考虑 对 人 为 或 其 他 潜在 的 应 激 源 对 河流 的 影响 进行 有 
意义 的 测量 [319]. 在 这 个 例子 中 , 我 们 考虑 从 人 口 密度 和 地 层 的 岩 块 尺寸 这 两 个 预 
测 变 量 对 大 型 无 硝 椎 动物 的 IBI 进行 预测 . 第 一 个 预测 变量 是 河流 流域 内 的 人 口 
密度 (每 平方 公里 的 人 数 ). 为 完善 图 形 的 表示 , 下 面 分 析 中 使 用 的 是 人 口 密度 的 对 
数 , 但 选择 的 树 与 对 预测 变量 不 做 变换 时 的 树 完全 一 样 . 第 二 个 预测 变量 是 在 地 层 
抽样 位 置 搜集 的 岩 块 直径 的 几何 平均 , 其 中 数据 以 毫米 为 单位 进行 测量 并 取 对 数 变 
换 . 这 些 数据 , 在 问题 12.5 中 还 会 进一步 考虑 , 是 由 环境 保护 局 从 1993 年 到 1998 
年 在 美国 东部 的 中 大 西洋 高 地 区 域 353 个 位 置 研 究 的 一 部 分 中 搜集 得 到 的 [161]. 

图 12.7 显示 了 一 棵 典型 的 树 . 4 个 二 元 问题 用 树 中 的 剖 分 表示 .每 个 剖 分 都 
是 根据 一 个 预测 变量 的 值 进行 的 ， 当 答案 为 “是 *, 即 标识 该 前 分 的 条 件 满足 时 取 
HOWEL. 例如 , 顶部 的 剖 分 表示 树 的 左 部 分 是 那些 岩 块 尺寸 不 大 于 0.4( 沙 粒 或 
更 小 ) 的 那些 观测 . 树 中 章 分 的 每 个 位 置 称 作 父 节点 . 最 顶部 的 父 节 点 也 称 作 根 节 
点 . 除根 节点 外 的 所 有 父 节点 都 是 内 节点 . 根据 在 父 节点 所 做 的 决定 , 数据 在 树 的 
底部 被 分 成 5 个 终端 节点 ， 和 每 个 终端 节点 联系 在 一 起 的 是 该 节点 内 所 有 观测 的 
IBI 的 均值 . 我 们 将 用 该 值 作为 预测 变量 进入 该 节点 的 任何 观测 的 预测 值 . 例如 , 对 
分 到 Ni 中 的 任何 观测 我 们 预测 IBI = 20. 口 
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岩石 尺寸 <0.4 


图 12.7 6) 12.4 中 预测 IBI 的 树 拟 合 . 根 节点 是 树 的 顶部 节点 , 父 节点 是 用 。 符 号 
表示 的 其 他 节点 , 而 终端 节点 是 M, No. 当 所 示 准 则 为 真 时 沿 父 节点 
的 左 支 走 , 为 假 时 沿 右 支 走 


1， 迭 代 分 类 回归 树 


一 开始 假设 响应 变量 是 连续 的 . 那么 树 型 光滑 一 般 称 为 迭代 分 类 回归 ,12.1.4 
节 第 3 部 分 将 讨论 分 类 响应 的 预测 . 

考虑 预测 -响应 数据 , 其 中 zi 是 与 响应 Y 相应 的 p 个 预测 变量 的 向 量 , i = 
1,… ,n. 为 简单 起 见 , 假设 p 个 预测 变量 都 是 连续 的 . 令 9 表示 要 拟 合 的 树 中 终端 
节点 的 个 数 . 

树 型 预测 是 逐条 常数 的 . 如 果 第 i 个 观测 的 预测 变量 值 落 入 第 j 个 终端 节点 ， 
那么 第 ; 个 预测 的 响应 等 于 常数 âj. 因此 树 型 光滑 为 


q 
s(a) = 》 a;1yareny)- (12.18) 
j=l 


该 模型 用 一 种 划分 过 程 去 拟 合 , 且 该 过 程 自 适应 地 把 预测 变量 空间 分 成 超 矩形 , 每 
个 超 矩形 对 应 一 个 终端 节点 . 一 旦 划分 完成 , 就 令 a; 等 于 落 入 第 j 个 终端 节点 观 
测 的 平均 响应 值 . 

注意 到 这 一 框架 意味 着 只 要 n 和 (或 )p 不 是 一 般 地 小 就 存在 大 量 可 能 的 树 , 任 
何 终端 节点 可 以 前 分 以 形成 更 大 的 树 . 任何 一 个 父 节点 的 两 个 分 支 可 以 合并 使 父 
节点 变 成 终端 节点 , 形成 原 树 的 一 个 子 树 . 任何 分 支 本 身 可 用 一 个 基于 不 同 预测 变 
EM (BR) 不 同 准则 的 分 支 来 蔡 换 . 下 面 描 述 拟 合 一 棵 树 使 用 的 划分 过 程 . 

最 简单 的 情况 下 , 假设 9 = 2. 然后 我 们 试图 用 一 个 平行 轴 边 界 把 R 分 成 两 
个 超 矩 形 . 选择 可 通过 剖 分 坐标 cs {1,… ,p} 和 一 个 剖 分 点 或 阐 值 te R 来 刻画 . 
那么 两 个 终端 节点 是 M = {zi : zic < t} FI No = {zi: wie > th. 用 SI 和 5 分 别 
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表示 落 入 两 个 节点 内 观测 的 指标 集 . 用 节点 指定 的 样本 平均 得 到 拟 合 


(zi) = Liesi) J. Yi/n + liess} > Yi/n, (12.19) 
IES jES2 
其 中 nj; 是 落 入 第 7 个 终端 节点 的 观测 数 . 

对 连续 的 预测 变量 和 排序 的 高 散 预 测 变 量 , 可 按照 这 种 方式 直接 定义 章 分 . 对 
未 排序 分 类 变量 的 处 理 有 所 不 同 . 假设 这 种 变量 的 每 个 观测 可 以 取 几 个 类 别 中 的 一 
个 . 所 有 这 种 类 别 的 集合 肯定 可 分 成 两 个 子 集 . 幸运 的 是 , 我 们 可 以 不 必 考 虑 所 有 
可 能 的 分 法 . 首先 , 按 每 类 中 平均 响应 的 顺序 对 各 类 进行 排序 . 然后 , 把 这 些 排序 的 
类 别 看 成 是 排序 的 离散 预测 变量 的 观测 . 这 一 策略 允许 最 优 的 前 分 [59]. 也 有 些 自 
然 的 方法 处 理 具有 某 些 缺失 预测 变量 值 的 观测 . 最 后 , 选择 预测 变量 的 变换 通常 不 
是 问题 : 树 型 模型 对 预测 变量 的 单调 变换 是 不 变 的 , 因为 在 多 数 软件 包 中 , 章 分 点 
是 由 预测 变量 的 秩 决 定 的 . 

要 找到 q= 2 个 终端 节点 的 最 好 的 树 , 我 们 试图 关于 < 和 上 最 小 化 残 差 平方 和 


RSS(c, t) = DIY- 4), (12.20) 


j=1 i€S; 


其 中 ay = & Yi/n;. 注意 到 5; 是 用 c 和 + 的 值 定 义 的 且 只 有 当 集合 5; 中 的 成 员 


发 生变 化 时 Rss(o, t) 才 改 变 . 因此 最 小 化 (12.20) 是 一 个 组 合 优化 问题 . 对 每 个 坐 
标 , 我 们 至 多 需要 试 n - 1 个 剖 分 , 而 且 如 果 坐 标的 预测 变量 值 中 有 结 的 话 次 数 会 
更 少 . 因此 最 多 搜索 p(n 一 1) 次 树 就 可 找到 最 小 的 RSS(c,t). 当 gq = 2 时 寻找 最 优 
树 的 穷尽 搜索 是 可 行 的 . 

现在 假设 v = 3. 第 一 个 剖 分 坐标 和 剖 分 点 把 Fr 分 成 两 个 超 矩形 . 然后 再 用 第 
二 个 剖 分 坐标 和 剖 分 点 将 其 中 一 个 超 矩 形 分 成 两 个 部 分 , 这 个 剖 分 坐标 和 剖 分 点 仅 
在 这 个 超 矩形 内 适用 . 结果 就 得 到 三 个 终端 节点 . 对 第 一 次 剖 分 至 多 需 做 p(n - 1) 
次 选择 . 对 任何 不 同 于 第 一 次 剖 分 使 用 的 坐标 进行 第 二 次 前 分 时 , 对 每 个 选择 的 第 
一 次 可 能 剖 分 至 多 存在 p(n — 1) 次 选择 . 对 第 一 次 剖 分 使 用 的 同一 个 坐标 进行 第 二 
URSIN, 至 多 存在 p(n — 2) 次 选择 . 对 较 大 的 9 继续 进行 这 种 逻辑 , 我 们 发 现 大 
约 有 (n 一 1)(n 一 2)…(n 一 q+1)pr! 棵 树 需 要 搜索 . 这 一 庞大 的 数字 使 得 穷尽 搜 
索 无 法 进行 . 

取而代之 , 我 们 采用 贪 禁 搜索 算法 (I 3.2 节 ). 序 贯 地 对 待 每 一 个 剖 分 . 选择 
最 好 的 一 个 剖 分 来 剖 分 根 节点 .对 每 个 孩子 节点 , 分 别 选 择 剖 分 将 其 最 优 地 前 开 . 
注意 , 这 样 得 到 的 g 个 终端 节点 常常 不 会 在 所 有 有 9 个 终端 节点 的 可 能 树 中 有 最 
小 的 残 差 平方 误差 . 
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例 12.5 (河流 监控 , 续 ) ”为 理解 树 中 的 终端 节点 如 何 相当 于 预测 空间 中 的 超 和 矩形， 
我 们 回忆 例 12.4 中 介绍 的 河流 监控 数据 . 图 12.7 中 树 的 另外 一 种 表示 见 图 12.8. 
该 图 显示 了 由 岩 块 尺寸 和 人 口 密度 变量 的 取 值 决 定 的 预测 空间 的 划分 . 每 个 图 以 
观测 zi 为 中 心 (i = 1,… ,n). 每 个 圈 的 面积 反映 了 对 那个 观测 的 IBI 值 的 强度 ， 
较 大 的 圈 对 应 于 较 大 的 IBI (A. 图 中 标 为 Mi,… ,Ns 的 矩形 区 域 相当 于 图 12.7 中 
的 终端 节点 . 第 一 个 剖 分 (关于 阔 值 为 t= 0.4 的 岩 块 尺寸 坐标 ) 在 图 的 中 间 用 竖 线 
表示 . 接 下 来 的 剖 分 仅仅 划分 部 分 的 预测 空间 . 例如 , 与 岩 块 尺寸 超过 0.4 相应 的 
区 域 接 下 来 根据 人 口 密度 变量 的 值 被 分 成 两 个 节点 , M 和 .Ns. 注意 到 序 贯 的 前 分 
有 如 下 缺点 : 数据 基于 人 口 密度 是 否 超过 大 约 2.5 的 明显 的 自然 划分 用 两 个 有 点 儿 
搭配 不 当 的 剖 分 来 表示 , 因为 前 面 的 剖 分 在 岩 块 尺寸 变量 的 0.4 处 出 现 . 12.1.4 节 
第 4 部 分 将 进一步 讨论 树 结构 的 不 确定 性 . 


图 12.8 i 12.4 和 例 12.5 中 讨论 的 预测 IBI 时 的 预测 空间 
( 岩 块 尺寸 和 人 口 密度 变量 ) 的 划分 


拟 合 树 的 逐 段 常 数 模型 见 图 12.9, 其 中 IBI 为 纵 轴 . 为 最 好 地 展示 曲面 , 各 轴 
与 图 12.8 相 比 已 经 做 了 旋转 . 口 
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2. 树 的 修剪 


BE q 贪 禁 搜 索 可 用 来 拟 合 树 模 型 . 注意 到 g 本 质 上 是 光滑 参数 . 大 q 值 对 
观测 数据 保留 了 高 的 忠实 度 , 但 得 到 的 树 在 预测 方面 有 较 高 的 潜在 变异 性 . 这 种 精 
细 的 模型 可 能 要 牺牲 解释 性 . 小 4 值 因 为 只 有 少数 几 个 终端 节点 而 有 小 的 预测 变 
异性 , 但 如 果 响 应 和 每 个 终端 节点 不 一 致 时 可 能 引入 预测 偏差 . 现在 我 们 讨论 如 何 
选择 q. 

选择 4 的 一 种 幼稚 的 方法 是 , 继续 前 分 终端 节点 直到 再 没有 剖 分 可 使 总 的 残 
差 平方 和 大 大 减少 为 止 . 该 方法 可 能 错过 数据 中 重要 的 结构 , 因为 即使 当前 的 剖 分 
没什么 改进 , 后 续 的 剖 分 也 可 能 很 有 价值 . 例如 , 考虑 由 Xi 和 Xo 为 [-1,1] 上 均 
勾 分 布 的 独立 预测 变量 且 Y = XiX2 得 到 的 鞍 型 响应 曲面 . 对 任何 一 个 预测 变量 
的 单独 剖 分 它 都 没有 太 大 用 处 , 但 任何 的 第 一 个 剖 分 都 使 接 下 来 的 两 个 剖 分 将 残 差 
平方 和 大 大 地 减少 . 

选择 q 更 加 有 效 的 方法 是 从 长 树 开始 , 把 每 个 终端 节点 进行 前 分 , 直到 每 个 包 
含 的 观测 数 都 不 多 于 某 预 先 给 定 的 最 小 数 或 其 残 差 平方 误差 不 超过 根 节点 平方 误 
差 的 某 预先 给 定 的 百分比 . 在 该 全 树 中 终端 节点 的 个 数 可 能 大 大 超过 q. 接 下 来 , 终 
端 节点 再 从 底部 往 上 按照 不 使 残 差 平方 和 大 大 增加 的 方式 序 贯 地 进行 合并 ， 这 种 
方法 的 一 种 实现 称 作成 本 -复杂 性 修 芭 算 法 [59,457]， 最 后 的 树 是 全 树 的 一 棵 子 树 ， 
是 根据 预测 误差 的 惩罚 和 树 复杂 性 的 惩罚 之 间 平 衡 的 准则 进行 选择 的 结果 . 

令 T 表示 全 树 , AT 表示 可 通过 剪 掉 To 某 些 父 节 点 以 下 所 有 东西 所 得 到 的 
To 的 某 子 树 . $ q(T) 表示 树 T 中 终端 节点 的 个 数 . 成 本 -复杂 性 准则 为 


R(T) = 7(T) + oq(T), (12.21) 


其 中 r(7) 为 树 T 的 残 差 平方 和 或 预测 误差 的 某 个 其 他 度量 , a 为 用 户 提供 的 惩罚 
树 复杂 性 的 参数 . 对 给 定 的 a, 最 优 树 是 最 小 化 Ra(T) 的 To 的 子 树 , 当 a= 0 时 ， 
全 树 To 将 选 为 最 优 的 . 当 a = ce 时 , 只 有 根 节点 的 树 将 选 为 最 优 的 . 如 果 To 有 
(To) 个 终端 节点 , 那么 通过 选择 不 同 的 a 值 至 多 可 得 到 q(To) 棵 子 树 . 

选择 (12.21) 式 中 参数 a 值 的 最 好 方法 是 交叉 验证 . 将 数据 集 分 成 V 个 大 小 
相同 各 自分 开 的 部 分 , 其 中 Y 一 般 在 3~10 之 间 取 值 . 对 a 值 的 有 限 序列 , 算法 如 
PRET: 

(1) 去 掉 数 据 集 V 部 分 中 的 一 个 , 该 子 集 称 作 验 证 集 ; 

(2) 用 数据 集中 剩 下 的 V 一 1 部 分 对 序列 中 的 每 个 a 值 寻找 最 优 的 子 树 ; 

(3) 对 每 个 最 优 子 树 预 测 训练 集 的 响应 , 并 根据 这 些 训练 集 预测 计算 交叉 验证 
的 误差 平方 和 . 
对 数据 的 V 个 部 分 都 重复 该 过 程 . 对 每 个 a, 计算 所 有 V 部 分 数据 总 的 交叉 验证 
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平方 和 . 选择 最 小 化 交叉 验证 平方 和 的 a 值 , 记 为 â. 估计 复杂 性 参数 的 最 优 值 之 
后 , 现在 我 们 可 对 所 有 数据 将 全 树 修剪 到 由 & 决定 的 子 树 . 

对 一 系列 a 值 寻找 最 优 树 的 有 效 算法 ( 见 上 面 第 2 步 ) 是 可 得 的 [59,457]. 实 

际 上 , 对 应 a 序列 值 的 一 组 最 优 树 是 嵌 套 的 , 较 小 的 树 对 应 较 大 的 a 值 , 而 且 通过 
从 底部 往 上 将 终端 节点 序 贯 地 进行 重组 可 访问 到 序列 中 所 有 的 成 员 ， 对 该 交叉 验 
证 策略 提出 了 各 种 扩展 , 包括 上 面 方法 的 一 种 变 体 , 即 从 几乎 达到 最 小 交叉 验证 平 
方 和 的 那些 树 中 选择 最 简单 的 树 [533]. 
例 12.6 (河流 监控 , 续 ) ”让 我 们 回 到 例 12.4 中 河流 生态 学 的 例子 . 通过 进行 剖 分 
直到 每 个 终端 节点 少 于 10 个 观测 或 残 差 平方 误差 少 于 根 节点 残 差 平方 误差 的 1% 
为 止 , 可 以 得 到 这 些 数据 的 全 树 . 该 过 程 得 到 具有 53 个 终端 节点 的 全 树 . 图 12.10 
显示 了 作为 终端 节点 个 数 函数 的 总 的 交叉 验证 残 差 平方 误差 . 该 图 是 用 10- 折 交叉 
验证 (V = 10) 得 到 的 ,可 以 从 底部 对 全 树 进行 修剪 , 把 最 没 用 的 终端 节点 重新 合 
并 直到 达到 Ro(T) 的 最 小 值 为 止 . 注意 , a 值 和 树 的 大 小 之 间 的 对 应 关系 意味 着 ; 
只 需 考 虑 有 限 个 a 值 即 可 , 因此 将 RalT) 对 q(T) 作 图 比 对 a 作 图 更 直接 . 具有 
5 个 终端 节点 的 树 得 到 了 最 小 的 交叉 验证 平方 和 ; 实际 上 , 这 就 是 图 12.7 中 所 示 的 
树 . 
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图 12.10 Bl 12.6 中 交叉 验证 残 差 平方 和 对 节点 大 小 的 图 . 
顶部 的 水 平 线 表示 成 本 -复杂 性 参数 a 


在 该 例 中 , 最 优 a 的 选择 , 因此 也 即 最 终 树 的 选择 , 随 数据 的 不 同 随机 划分 而 
不 同 . 一 般 最 优 树 有 3~13 个 终端 节点 . 这 种 不 确定 性 加 强 了 树 型 模型 结构 的 潜在 
不 稳定 性 , 尤其 是 对 信号 不 强 的 数据 集 . 口 
3， 分 类 树 

短暂 抛 开本 章 的 光滑 这 一 重点 内 容 , 我 们 有 必要 在 此 快速 总 结 一 下 分 类 响应 变 
量 的 树 型 方法 . 

用 于 预测 分 类 响应 变量 的 迭代 分 类 模型 一 般 称 为 分 类 树 [59,457]. 假设 每 个 响 
应 变量 Y: 取 M 类 中 的 一 个 . 令 fim 表示 终端 节点 Ni 中 属于 m 类 观测 的 比例 
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(m = 1,… ,MM). 粗略 地 说 , NG 中 所 有 的 观测 都 预测 为 主要 构成 该 节点 的 一 类 . 节 
点 内 按 多 数 投票 的 这 种 预测 可 按 以 下 两 种 方式 进行 改进 . 首先 , 可 对 投票 进行 加 权 
以 反映 每 类 总 的 优势 . 这 使 预测 偏 于 在 数量 上 占 优势 的 类 别 . 其 次 , 可 对 投票 进行 
加 权 以 反映 不 同 误 判 类 型 的 不 同 损 失 [533]. 例如 , 如 果 各 个 类 别 对 应 于 医疗 诊断 ， 
那么 假 阳 性 或 假 阴性 诊断 可 能 是 重大 错误 , 而 其 他 的 错误 可 能 只 产生 较 轻 的 后 果 . 

分 类 树 的 构造 依赖 于 用 类 似 于 夫 代 分 类 回归 中 使 用 的 贪 禁 策 略 对 预测 空间 的 
划分 . 对 回归 树 的 剖 分 来 说 , 通过 最 小 化 左右 孩子 节点 内 总 的 残 差 平方 和 来 选择 剖 
分 坐标 c 和 前 分 点 t 对 分 类 树 来 说 , 需要 不 同 的 误差 度量 . 残 差 平方 误差 替换 为 
节点 不 纯度 这 一 度量 . 

有 多 种 方法 可 度量 节点 不 纯度 , 但 多 数 都 基于 以 下 原则 . 当 节点 ; 内 的 观测 集 
中 于 一 类 时 , 该 节点 的 不 纯度 应 该 比较 小 ; 当 观 测 在 所 有 M 个 类 上 均匀 地 分 布 时 ， 
该 节点 的 不 纯度 应 该 比较 大 . 两 个 常用 的 不 纯度 度量 为 炉 , 对 节点 7 用 $ Bim log 
Bim 给 出 , 以 及 基尼 指数 , FO DIDim 给 出 . 这 些 方法 比 简单 地 计算 误 判 数 更 有 


效 , B 因为 剖 分 可 大 大 提高 节点 的 纯度 ， 而 不 用 改变 任何 分 类 . 例如 , 如 果 剖 分 双方 的 
多 数 选票 和 不 剖 分 的 选票 有 同样 结果 , 但 在 某 个 子 区 域 中 胜利 程度 远 远 小 于 其 他 区 
域 , 这 时 就 会 出 现 以 上 的 情况 . 

树 的 成 本 -复杂 性 修剪 可 按 12.1.4 节 第 2 部 分 描述 的 策略 进行 . 焙 或 基尼 指数 
可 用 作 (12.21) 式 中 的 成 本 度量 r(T). 或 者 , 也 可 令 r(T) 等 于 一 种 (可 能 加 权 的 ) 
误 判 率 来 进行 修剪. 
4， 树 型 方法 的 其 他 问题 


树 型 方法 比 其 他 更 加 传统 的 建 模 方法 有 更 多 的 优点 . 首先 , 树 型 模型 可 以 拟 合 
预测 变量 间 的 交互 效应 及 其 他 不 可 加 行为 , 而 不 要 求 用 户 明确 指定 交互 效应 的 形 
SR. 其 次 , 无 论 是 在 拟 合 模型 还 是 在 作 预 测 , 使 用 带 有 某 些 缺 失 预 测 变量 值 的 数据 
时 更 加 自然 . 某 些 策略 在 文献 [58,457] 中 进行 了 研究 . 

缺点 之 一 是 树 可 能 不 稳定 .因此 必须 注意 不 要 过 度 解释 某 些 特殊 的 前 分 . 例 
如 , 如 果 图 12.8 的 Mi 中 最 小 的 两 个 IBI 值 再 增加 些 , 那么 当 用 修改 后 的 数据 构造 
新 树 时 该 节点 将 被 删除 . 新 数据 常常 会 选择 明显 不 同 的 剖 分 , 即使 预测 相对 保持 不 
变 . 例如 , 从 图 12.8 容易 推测 , 数据 稍 有 不 同 就 可 能 导致 根 节 点 按 人 口 密度 在 2.5 
的 训 分 点 进行 剖 分 , 而 不 是 按 岩 块 大 小 在 0.4 进行 剖 分 . 修 前 之 前 把 全 树 建 成 不 同 
大 小 可 以 使 得 修剪 后 选择 不 同 的 最 优 树 , 在 这 方面 树 也 可 能 不 稳定 . 

另外 一 个 问题 是 不 确定 性 的 评价 有 点 挑战 性 . 没有 一 种 简单 的 方式 来 对 树 结 
构 本 身 总 结 出 一 个 置信 区 域 . 树 预测 的 置信 区 间 可 用 bootstrap 得 到 (第 9 章 ). 

树 型 方法 在 计算 机 科学 中 非常 流行 ， 尤 其 是 分 类 [440,457]， 同 时 , 也 提出 了 
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Bayes 的 树 型 方法 [94,131]. 树 型 方法 的 医学 应 用 也 尤为 普遍 , 这 也 许 是 因为 作为 疾 
病 诊断 的 工具 , 二 元 决策 树 解释 和 应 用 起 来 都 非常 简单 [59,951. 
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最 后 , 我 们 考虑 几乎 位 于 低 维 流 形 (如 曲线 或 曲面 ) 上 的 高 维 数据 .对 这 种 数 
据 , 可 能 没有 预测 变量 和 响应 变量 这 种 明显 概念 上 的 区 别 . 然而 , 我 们 可 能 对 估计 
变量 之 间 的 光滑 关系 比较 感 兴趣 . 本 节 中 , 我 们 给 出 一 种 光滑 多 元 数据 的 方法 , 称 
为 主 曲 线 . 其 他 研究 变量 之 间 关 系 的 方法 , MIKA RAH, 参见 [281]. 


主 曲 线 


主 曲线 是 一 类 专门 对 一 般 p 维 多 元 数据 集 进行 的 一 维 非 参 汇总 . 不 太 严 谨 地 
说 , 主 曲线 上 的 每 个 点 都 是 投影 到 曲线 上 该 点 的 所 有 数据 的 平均 . 11.6 节 已 开始 促 
使 我 们 研究 主 曲线 . 图 11.18 中 的 数据 不 适合 用 预测 -响应 光滑 , 然而 使 光滑 的 概念 
适合 于 一 般 多 元 数据 可 得 到 如 图 11.18 右边 面板 所 示 的 非常 好 的 拟 合 . 现在 我 们 更 
具体 地 描述 主 曲线 的 概念 及 其 估计 [279]. 相关 软件 包括 [277,323,546]. 
1， 定 义 和 动 机 

一 般 的 多 元 数据 可 能 位 于 R, 中 迁 回 连续 的 一 维 曲线 附近 . 这 就 是 我 们 要 估计 
的 曲线 . 下 面 我 们 采用 曲线 的 时 间 - 速 度 参数 化 来 适应 最 一 般 的 情形 . 

我 们 可 把 Rp 中 的 一 维 曲线 记 为 fr) = (有 (7),… f(r), 其 中 位 于 mm 和 
n 之 间 ， 这 里 7 可 用 来 表示 p 维 空间 中 沿 一 维 曲线 的 距离 ， 曲线 7 的 弧 长 为 


[190 War, 3 


Iro I= (HA) + (B0). 


如 果 对 所 有 r e [m,m] 有 | f(r) ||= 1, 那么 沿 曲线 任何 两 点 ra 和 ro 之 间 的 弧 
长 为 Jra- To). 此 时 称 f 有 单位 -速度 参数 化 . 设想 一 只 小 虫 没 曲线 以 速度 1 向 前 
E, 或 以 速度 -1 向 后 走 (向 前 或 向 后 的 指定 是 任意 的 ), 这 样 设想 常常 是 很 有 帮助 
的 . 如 此 小 虫 在 两 点 之 间 走 动 所 花费 的 时 间 量 就 相当 于 弧 长 , 正 负 号 相当 于 所 取 的 
方向 . 对 所 有 r, 满足 | Fr) > 0 的 任何 光滑 曲线 都 可 重 参数 化 到 单位 速度 . 如 果 
单位 -速度 曲线 的 坐标 函数 是 光滑 的 , 那么 f 本 身 也 是 光滑 的 . 

我 们 感 兴趣 的 要 估计 的 曲线 类 型 是 光滑 没有 交叉 且 波 动 不 太 大 的 曲线 . 具体 来 
说 , 我 们 假设 f 是 RP 中 光滑 的 单位 -速度 曲线 , 其 参数 化 到 闭 区 间 fro, n) 上 使 得 
对 所 有 的 r, 当 te [on] Erti, 有 SOA Fr), MAB fE R 的 任何 闭 
球 内 有 有 限 长 度 . 
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任 给 点 ze RP, 定义 投影 指标 函数 zf(z) : R 一 KW 
rglæ) = sup {r : lle — FON = inf le = FOI} (12.22) 


因此 ry(z) 为 最 接近 z 的 f(r) 中 r 的 最 大 值 . 具有 类 似 投影 指标 的 点 正 交 地 投影 
到 曲线 f 的 一 小 部 分 上 . 以 后 投影 指标 将 用 来 定义 邻 域 . 

BAX 为 R? 中 某 个 具有 有 限 二 阶 和 矩 的 随机 向 量 . 与 前 面 各 节 不 同 , 我 们 不 
区 分 预测 变量 和 响应 变量 . 

我 们 定义 为 主 曲线 , 如 果 对 所 有 7* e [on] 有 fr*) = E {X|rz(X) =r} 
这 一 要 求 有 时 称 作 自我 一 致 性 . 图 12.11 解释 了 这 一 想法 , 即 在 某 r 正 交 于 曲线 的 
点 的 分 布 的 均值 一 定 等 于 该 点 曲线 本 身 的 值 . 左边 面板 中 , 在 >” 处 沿 正 交 于 f 的 
轴 描 出 了 一 个 分 布 . 该 分 布 的 均值 为 f(r"). 注意 到 对 椭 球 分 布 , 主 成 分 直线 就 是 主 
曲线 . 主 成 分 可 参见 [402]. 


图 12.11 ”解释 主 曲线 定义 及 其 估计 的 两 个 面板 . 左边 面板 中 , 曲线 f 在 某 7* 处 与 正 交 
于 了 的 轴 相交 . 该 轴 上 描 出 了 条 件 密度 曲线 ; 如 果 f 是 主 曲线 , 那么 该 条 件 密 
度 的 均值 一 定 等 于 f(7*). 右边 面板 中 画 出 了 7* 附近 的 一 个 邻 域 . 边界 内 所 有 
点 都 投影 到 r 附近 的 了 上. 这 些 点 的 样本 均值 应 该 是 左边 面板 中 真实 条 件 密 
度 均 值 的 一 个 很 好 的 近似 


主 曲线 受 局 部 平均 概念 的 启发 : 主 曲线 和 和 邻 域内 各 点 的 平均 有 关 . 对 预测 - 响 
应 光滑 来 说 , 沿 预 测 变量 坐标 轴 定 义 邻 域 . 对 主 曲 线 来 说 , 沿 曲线 本 身 定义 邻 域 . 投 
影 在 曲线 附近 的 点 属于 同一 邻 域 . 图 12.11 右边 的 面板 解释 了 沿 曲线 局 部 邻 域 的 概 
念 . 
2. 估计 


用 迁 代 算法 可 从 一 组 p 维 样本 数据 Xa, Xn 来 估计 主 曲线 . 算法 在 + = 0 
选择 一 条 简单 初始 曲线 FO (0), 并 根据 (12.22) 令 OX) = ryo (2) 进行 初始 化 . 
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一 种 合理 的 选择 是 令 f(r) = X tar, 其 中 a 是 从 数据 中 估计 的 第 一 个 线性 主 成 
分 . 算法 如 下 进行 . 

(1) 光滑 数据 的 第 上 个 坐标 . 具体 来 说 , 对 上 = 1,… , p, 用 具有 跨度 hO 的 标准 
二 元 预测 -响应 光滑 将 Xix 对 rO X) 进行 光滑 . 点 X; 到 FO 的 投影 得 到 的 预测 
变量 为 7 个 (Xi), i= 1,… ,n. 响应 为 Xs. 结果 是 FO, BATHE B{X|7(9(z)} 
的 估计 .这 实现 了 对 几乎 投影 到 主 曲线 同一 点 的 所 有 点 进行 局 部 平均 的 散 点 光滑 策 
m. 


(t+1) 


(2) 在 FO) (i = 1 ,由 之 间 进 行内 插 ， 并 计算 ryero(Xi) 作为 与 
PEO 间 的 距离 . 注意 , 某 些 X; 可 能 投影 到 与 以 前 迭代 中 完全 不 同 的 部 分 . 

(8) 令 TDA) 等 于 变换 到 单位 速度 的 roo (X). 这 等 于 调节 ryen (Xs) 
使 得 每 个 都 等 于 沿 多 边 形 曲线 到 达 的 总 距离. 

(4) 计算 了 的 收敛 性 , 如 果 可 能 则 停止 ; 否则 , 增加 t 并 转 入 第 1 步 . 可 根据 总 
误差 D (X; - FOP 9 CD) 构造 一 个 相对 的 收 全 准则. 


算法 的 结果 是 逐 段 线性 多 项 式 曲线 作为 主 曲线 的 估计 . 

主 曲线 的 概念 可 推广 到 多 元 响应 中 .为 此 , 与 上 面 类 似 地 可 定义 主 上 曲面， 曲面 
用 向 量 7 进行 参数 化 , 并 将 数据 点 投影 到 曲面 上 . 任何 投影 到 r* 附近 曲面 上 的 点 
都 控制 7* 处 的 局 部 光滑 ， 
例 12.7 (二 元 数据 的 主 曲线 ) ”图 12.12 解释 了 拟 合 主 曲 线 和 迭代 过 程 的 几 个 步骤 . 
按照 从 左上 到 右 下 的 顺序 来 看 图 中 的 各 个 面板 . 在 第 1 个 面板 中 描 出 了 各 数据 点 . 
形状 像 方形 字母 C 的 实 线 是 JO. 每 个 数据 点 用 一 条 表示 其 正 交 投影 的 线 与 JO 
RERA. 当 小 虫 沿 7° (7) 从 右上 角 走 到 右 下 角 时 , 7(0(z) 从 0 增加 到 7. 第 2 个 
和 第 3 个 面板 显示 了 数据 每 个 坐标 对 投影 指标 7(0(z) 的 图 形 . 这 些 逐 个 坐标 的 光 
滑 相当 于 估计 算法 的 第 1 步 . 每 个 面板 中 使 用 了 光滑 样 条 , 旦 生成 的 总 的 估计 了 
见 第 4 个 面板 . 第 5 个 面板 显示 了 7°. 第 6 个 面板 给 出 收敛 后 的 最 终结 果 ， 口 
3， 跨 度 选择 


FE HAR BLEED AB RAT BS BE ht 的 选择 . 由 于 是 逐个 坐标 进行 光 
滑 的 , 所 以 在 每 次 迭代 时 每 个 坐标 可 使 用 不 同 的 跨度 , 但 实际 上 在 分 析 之 前 将 数据 
标准 化 然后 再 用 共同 的 hO, 这 样 更 合理 些 . 

然而 , 从 一 个 迭代 到 下 一 个 迭代 中 AO 的 选择 仍 是 个 问题 . 一 个 明显 的 解决 办 
法 是 在 每 次 达 代 中 通过 交叉 验证 选择 AO. 奇怪 的 是 , 这 种 方法 并 不 怎么 管用 ， 
为 坐标 函数 误差 项 的 自 相关 人 性 产生 了 普遍 的 光滑 不 足 . 于 是 更 加 合理 地 , 我 们 取 
nO = h 并 保持 不 变 , 直到 收敛 . 这 样 , 步骤 1 中 附加 的 迭代 可 用 交叉 验证 选择 的 
跨度 来 完成 . 
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a a 


图 12.12 ”这 些 面板 解释 了 主 曲线 迭代 拟 合 的 过 程 . 详 见 例 12.7 


z 


这 种 跨度 选择 方法 令 人 担 优 , 因为 初始 的 跨度 选择 显然 可 以 影响 算法 收敛 时 曲 
线 的 形状 . 如 果 收 敛 以 后 再 对 跨度 进行 交叉 验证 , 那么 对 这 类 错误 纠正 了 就 为 时 已 
WT. 然而 , 该 算法 对 许多 例子 表现 都 很 好 , 而 普通 光滑 技巧 将 会 得 到 灾难 性 的 后 


果 . 


问 题 


12.1 对 如 (12.5) 式 定义 的 A, 光滑 矩阵 Sr 及 n 维 向 量 y,,k=1,---,p, 令 Ik 表示 由 经 


过 Sx 而 保持 不 变 的 向 量 ( 即 满足 Skv =v 的 向 量 ) 所 张 成 的 空间 
H y= (7i7yaz…Yp)), SARAH k, Yy € Ir 且 Èn=o. 


证 明 Ay = 0( 其 


12.2 对 体 脂 的 精确 测量 可 能 既 费 钱 又 耗 时 .用 标准 测量 对 体 脂 进行 精确 预测 的 模型 在 多 数 
情况 下 非常 有 用 . 一 项 研究 打算 用 251 位 男性 的 13 项 简单 身体 测量 来 预测 体 脂 . 对 每 
个 受 试 者 记录 了 由 水 下 称 重 法 测 得 的 体 脂 百分比 、 年 龄 、 体 重 、 身 高 及 10 A 


测量 ( 表 12.2). 该 研究 深入 的 细节 见 [289,311]. 这些 数据 可 从 本 书 3 
的 目的 是 应 用 这 些 数据 比较 和 对 比 几 种 多 元 光滑 方法 . 


和 页 上 下 载 . 本题 


(a) 用 自己 选择 的 光滑 , 发 展 后 退 拟 合算 法 , 并 对 这 些 数据 按照 12.1.1 节 的 描述 拟 合 可 


加 模型 . 将 可 加 模型 的 结果 与 多 元 回归 的 结果 进行 比较 . 


(b) 用 如 下 5 种 方法 对 这 些 数据 估计 模型 (任何 软件 都 行 ): (1) 标准 的 多 元 线性 回归 模 
型 (MLR); (2) 可 加 模型 (AM); (3) 投影 寻 踪 回归 (PPR); (4) 交替 条 件 期 望 程序 


12.3 


12.4 


12.5 
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(ACE); (5) 可 加 性 及 方差 平稳 化 方法 (AVAS). 


1. ER ( 岁 ) 8. KBE 

2. 体重 ( 磅 ) 9. 膝 

3. 身高 (英尺 ) 10. 中 

4. 颈 11. 伸展 的 二 头 肌 
5. 胸 12. a 

6. 腹部 13. 手腕 

7. Be 


i. 对 MLR, AM, ACE 及 AVAS, 画 出 第 k 个 估计 的 坐标 光滑 对 第 k 个 预测 变 
量 观测 值 的 图 , k= 1,… ,13. 换 句 话说 , 像 图 12.2 那样 对 i= 1 … ,251 做 
出 sk(zik) 值 对 zi 的 图 . 对 PPR, 模仿 图 12.6 做 出 每 个 成 分 光滑 对 投影 华 
标的 图 像 . 对 所 有 方法 在 每 个 图 中 以 合适 的 方式 把 观测 数据 点 加 进去 . 对 这 些 
方法 间 的 任何 差别 做 评价 . 
ii， 进 行 逐 一 交叉 验证 分 析 , 其 中 第 i 个 交叉 验证 残 差 是 第 i 个 观测 响应 和 从 数 
据 集中 去 掉 第 i 个 数据 点 拟 合 的 模型 中 得 到 的 第 i 个 预测 响应 的 差 . 用 这 些 
结果 比较 MLR, AM 和 PPR 在 使 用 类 似 于 (11.16) 式 的 交叉 验证 残 差 平方 
和 时 的 预测 表现 . 
对 问题 12.2 中 的 体 脂 数据 , 比较 在 形 如 (12.3) 式 的 可 加 预测 模型 中 使 用 的 至 少 3 种 不 
同 光滑 的 表现 ， 对 不 同 的 光滑 比较 逐一 交叉 验证 均 方 预测 误差 .在 可 加 模型 中 是 否 一 
种 光滑 优 于 另 一 种 光滑 ? 
例 2.5 对 检验 人 类 脸谱 识别 算法 中 得 到 的 数据 描述 了 广义 线性 模型 . 数据 可 从 本 书 主 
页 上 下 载 。 响 应 变量 是 二 元 的 ,其 中 如 果 同 一 人 的 两 个 图 像 匹 配 正确 则 Yi = 1, 否则 
Yi = 0. 共有 3 个 预测 变量 . 第 1 个 是 第 i 个 人 的 两 个 图 像 中 眼 区 平均 像素 强度 的 绝 
对 差别 . 第 2 个 是 两 个 图 像 中 鼻子 脸 天 区 域 平 均 像素 强度 的 绝对 差别 . 第 3 个 预测 变量 
比较 了 两 个 图 像 像 素 强度 的 变异 性 . 对 第 i 个 人 的 每 个 图 像 , 在 两 个 区 域 计 算 了 像素 强 
度 的 绝对 中 位 差 (一 个 稳健 的 散 度 度量 ): 前 额 区 域 及 鼻子 脸 类 区 域 . 第 3 个 预测 变量 
是 图 像 内 的 比值 在 两 个 图 像 间 的 比值 . 对 这 些 数 据 拟 合 一 个 广义 可 加 模型 . 画 出 你 的 结 
果 并 给 出 解释 . 将 你 的 结果 与 普通 logistic 回归 模型 的 拟 合 进行 比较 . 
考虑 例 12.4 中 的 大 型 无 疹 椎 动物 的 生物 完整 性 指数 的 一 组 河流 监控 预测 变量 ， 这 21 
个 预测 变量 , 在 本 书 的 主页 上 有 详细 描述 , 被 分 成 以 下 4 组 : 
现场 化 学 特性 度量 : 酸 中 和 能 力 , 氧化 物 , 电导 率 , OR, pH, 总 磷 , 硫酸 盐 
现场 栖 地 度量 : 地 层 直径 , 急流 区 百分比 , 中 央 航 道上 的 树冠 琉 密度 , 河道 坡度 
现场 地 理 度量 : 海拔 , 经 度 , 纬度 , 地 面 坡度 
流域 度量 : 地 面 流域 面积 , 人 口 密度 , 农业 、 矿业、 林业 和 市 区 用 地 的 百分比 
(a) 构造 回归 树 来 预测 IBI. 
(b) 比较 树 的 几 种 修剪 方法 的 表现 . 比较 每 种 技巧 选择 的 最 终 树 的 10- 折 交叉 验证 均 方 
预测 误差 . 
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(O 变量 被 分 成 以 上 4 组 ， 依 次 只 用 上 面 的 一 组 变量 建立 回归 树 ， 对 每 组 预测 变量 最 
终 选择 的 树 比较 10- 折 交叉 验证 均 方 预 测 误差 
12.6 讨论 第 3 章 中 的 组 合 优化 方法 如 何 用 来 改进 树 型 方法 . 
12.7 RA X = f(r) + e 的 例子 , 其 中 e 是 零 均值 的 随机 向 量 , 但 了 不 是 X 的 主 曲 线 . 
12.8 本 书 主页 上 提供 了 一 些 适合 拟 合 主 曲线 的 人 造 数据 . 对 一 个 二 元 变量 有 50 个 观测 且 每 
个 坐标 已 经 标准 化 . 把 这 些 数 据 记 为 21,… ,zso. 
(a) 画 出 数据 的 散 点 图 ， 令 了 ”表示 数据 投影 的 经 过 原点 且 斜 率 为 1 的 直线 部 分 . 在 
图 上 附 上 该 直线 . 模仿 图 12.12 中 的 左上 角 的 面板 , 说 明 数据 是 如 何 投影 到 了 "上 
的 . 
(b) 对 每 个 数据 点 zt 计算 7 (wi). 变换 到 单位 速度 . 提示 : 说 明 变换 aT a, 为 什么 管 
FA, 其 中 a = (V3/2, 2/2)". 
(c) 对 数据 的 每 个 坐标 , 依次 画 出 那个 坐标 的 数据 值 ( 即 zo MHL, i = 1 … ,50) 对 投影 
指标 值 ro)(z) 的 散 点 图 . 光滑 每 个 图 中 的 点 并 在 每 个 图 上 附 上 所 得 的 光滑 . 这 很 
像 图 12.12 中 的 中 上 和 右上 的 面板 . 
(d) 在 数据 的 散 点 图 上 附 上 了 ,正如 图 12.12 中 左下 角 的 面板 那样 
(e) 高 级 读者 可 考虑 使 这 些 步 又 自动 运行 并 进行 推广 得 到 迭代 算法 ,使 其 收敛 到 估计 的 
主 曲 线 . S-Plus 中 拟 合 主 曲 线 的 一 些 相关 软件 见 [277,323,546]. 
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归 我们 所 有 或 由 于 某 些 原因 模拟 得 到 . 下 面 给 出 数据 集 所 有 权 的 详细 情况 . 
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是 由 美国 环保 局 通过 环境 监测 与 评价 程序 (EMAP) 产生 的 [161,541]. 

问题 2.3 中 的 白血病 数据 是 经 授权 使 用 的 , 取 自 于 [177]. 版 权 所 有 : 美国 血液 
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